- ICH GCP
- Registr klinických studií v USA
- Klinická studie NCT07500428
Vytvoření benchmarku pro interpretaci ultrazvuku prsu pomocí AI a hodnocení výkonnosti multimodálních modelů AI (BUST-AI Bench)
Konstrukce standardizovaného benchmarkového hodnoticího systému pro inteligentní interpretaci ultrazvukových snímků prsu a systematické hodnocení výkonnosti multimodálních modelů umělé inteligence založené na kritériích ACR BI-RADS v2025
Tato jednocentrová, retrospektivní, observační studie si klade za cíl vytvořit standardizovaný systém benchmarkového hodnocení pro inteligentní interpretaci ultrazvukových snímků prsu a systematicky posoudit diagnostickou výkonnost současných hlavních multimodálních modelů umělé inteligence (AI).
De-identifikované ultrazvukové snímky prsu v B-režimu s potvrzenými patologickými diagnózami budou retrospektivně shromážděny z institucionálního archivu (2018–2025) a doplněny snímky z publikovaných otevřených datových sad. Expertní radiologové s různou úrovní zkušeností nezávisle označí všechny snímky podle kritérií American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025, včetně složení žlázové tkáně, charakterizace lézí (hmota vs. nehmotná léze), morfologických deskriptorů a konečné klasifikace BI-RADS.
Základní modely hlubokého učení (na bázi CNN ResNet-50 a Transformer-based USFM) budou natrénovány, aby stanovily výkonnostní výchozí hodnoty a stratifikovaly případy podle diagnostické obtížnosti prostřednictvím konsenzu napříč architekturami. Následně bude vyhodnoceno několik multimodálních velkých jazykových modelů (MLLM), včetně obecně určených i medicínských modelů, prostřednictvím standardizovaných API volání s využitím řetězce myšlenek řízeného BI-RADS při teplotě 0 pro reprodukovatelnost.
Primární cílové parametry zahrnují přesnost klasifikace BI-RADS a diagnostickou AUC pro rozlišení benigního a maligního. Robustnost a bezpečnost modelu budou hodnoceny prostřednictvím testů odmítání mimo distribuci, experimentů s teplotní stabilitou a studií ablace režimů myšlení. Tato studie se řídí směrnicemi pro podávání zpráv FLAIR a TRIPOD-LLM.
Přehled studie
Postavení
Podmínky
Detailní popis
Pozadí: Karcinom prsu je celosvětově nejčastější malignita u žen. Ultrazvuk je screeningová metoda první volby, zejména u asijských populací s hustou tkání prsu, kde je senzitivita mamografie omezená. Interpretace ultrazvuku je však vysoce závislá na operátorovi, s významnou variabilitou mezi pozorovateli v klasifikaci BI-RADS, zejména u lézí kategorie 4A-4B. Multimodální velké jazykové modely (MLLM) se ukázaly jako slibný nástroj pro analýzu lékařských obrazů díky jejich schopnosti nulového diagnostického výkonu, interpretovatelného řetězcového uvažování a strukturovaného generování zpráv. Přesto v současné době neexistuje standardizovaný benchmark pro hodnocení výkonu umělé inteligence při interpretaci ultrazvuku prsu.
Design studie: Bude sestaveno přibližně 1 380 ultrazvukových snímků prsu (1 200 snímků pro evaluační soubor + 150 snímků pro bezpečnostní test mimo distribuci + 30 snímků pro vývoj promptů), zahrnujících tři diagnostické kategorie: normální prs, benigní léze (BI-RADS 2-4B) a maligní léze (BI-RADS 3-5). Dva mladší radiologové (<5 let zkušeností) a dva starší radiologové (>15 let) nezávisle anotují snímky podle ACR BI-RADS v2025 s arbitráží pátého experta pro nesouhlasné případy.
Diagnostická obtížnost bude stratifikována do tří úrovní pomocí konsenzu hlubokého učení napříč architekturami: Úroveň 1 (přímočará, oba modely správné), Úroveň 2 (nejednoznačná, jeden správný/jeden nesprávný) a Úroveň 3 (obtížná, oba nesprávné, s validací seniorního experta). MLLM budou hodnoceny v mnoha dimenzích: přesnost klasifikace, senzitivita, specificita, F1 skóre, AUC, Cohenovo kappa shoda s expertním konsenzem, očekávaná chyba kalibrace (ECE), přesnost popisu morfologických vlastností a kvalita řetězcového uvažování.
Bezpečnostní hodnocení: (1) Test odmítnutí mimo distribuci s použitím 150 nediagnostických snímků (zhoršené snímky, neultrazvuk prsu, jiné zobrazovací modality); (2) Pre-experimentální teplotní stabilita napříč nastavením parametrů; (3) Ablace režimu myšlení porovnávající standardní vs. režimy řetězcového uvažování. Všechny experimenty používají pevné snapshoty modelů, monitorování systémových otisků a kompletní logování pro reprodukovatelnost.
Typ studie
Zápis (Odhadovaný)
Kontakty a umístění
Studijní kontakt
- Jméno: Qingli Zhu, MD
- Telefonní číslo: +86 13621376699
- E-mail: zqlpumch@126.com
Studijní záloha kontaktů
- Jméno: Yinglan Wu, MD
- Telefonní číslo: +86 15626121076
- E-mail: wuylan7@gmail.com
Studijní místa
-
-
-
Beijing, Čína, 100730
- Nábor
- Peking Union Medical College Hospital
-
Kontakt:
- Qingli Zhu, MD
- Telefonní číslo: +86 13621376699
- E-mail: zqlpumch@126.com
-
-
Kritéria účasti
Kritéria způsobilosti
Věk způsobilý ke studiu
- Dospělý
- Starší dospělý
Přijímá zdravé dobrovolníky
Metoda odběru vzorků
Studijní populace
Popis
Kritéria pro zařazení:
- B-režimové prsní ultrazvukové snímky ve stupních šedi z institucionální databáze PACS nebo z publikovaných otevřených datových sad prsních ultrazvuků s dokumentovaným původním institucionálním etickým schválením
- Kvalita snímku dostatečná pro klinickou diagnózu s jasnou vizualizací oblasti zájmu
- Patologická diagnóza potvrzena (pro skupiny benigních a maligních lézí) nebo normální stav prsu potvrzen seniorním radiologem s více než 15 lety zkušeností s prsním ultrazvukem (pro normální skupinu)
- Kompletní anonymizace s odstraněním všech osobně identifikovatelných údajů
Kritéria pro vyloučení:
- Silně degradovaná kvalita snímku znemožňující smysluplné hodnocení BI-RADS
- Duplicitní snímky od stejného pacienta (pouze nejreprezentativnější snímek zachován pro každou lézi)
- Snímky se zbytkovými osobně identifikovatelnými údaji po procesu anonymizace
- Případy s nejednoznačnými, spornými nebo nedostupnými patologickými výsledky
- Ne B-režimové ultrazvukové snímky, včetně elastografie, kontrastem zesíleného ultrazvuku a Dopplerova zobrazení
Studijní plán
Jak je studie koncipována?
Detaily designu
Kohorty a intervence
Skupina / kohorta |
Intervence / Léčba |
|---|---|
|
Normální prsní tkáň
Mamografické ultrazvukové snímky ukazující normální žlázovou tkáň napříč různými typy složení tkáně, bez identifikovaných fokálních lézí.
Potvrzeno přezkoumáním seniorním radiologem.
|
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API.
Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.
|
|
Benigní léze
Mamární ultrazvukové snímky obsahující patologicky potvrzené benigní léze (BI-RADS 2-4B), včetně fibroadenomu, cysty, lipomu, sklerotizující adenózy, intraduktálního papillomu a vybraných ložisek bez hmoty (NML).
|
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API.
Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.
|
|
Maligní léze
Ultrazvukové snímky prsu obsahující patologicky potvrzené maligní léze (BI-RADS 3-5), včetně invazivního duktálního karcinomu, invazivního lobulárního karcinomu, mucinózního karcinomu a vybraných nehmotných lézí (NML).
|
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API.
Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.
|
Co je měření studie?
Primární výstupní opatření
Měření výsledku |
Popis opatření |
Časové okno |
|---|---|---|
|
Diagnostická přesnost pro patologickou diagnózu
Časové okno: Po dokončení studie, přibližně 12 měsíců
|
Citlivost, specificita, pozitivní prediktivní hodnota (PPV), negativní prediktivní hodnota (NPV) a F1 skóre modelů AI pro klasifikaci benigní-maligní, s histopatologickou diagnózou jako zlatým standardem.
|
Po dokončení studie, přibližně 12 měsíců
|
|
Přesnost klasifikace BI-RADS
Časové okno: Po dokončení studie, přibližně 12 měsíců
|
Celková přesnost modelů umělé inteligence při přiřazování kategorií BI-RADS (2, 3, 4A, 4B, 4C, 5) k ultrazvukovým snímkům prsu, ve srovnání s odborným konsenzuálním označením jako referenčním standardem.
|
Po dokončení studie, přibližně 12 měsíců
|
Sekundární výstupní opatření
Měření výsledku |
Popis opatření |
Časové okno |
|---|---|---|
|
Shoda s odborným konsenzem (Cohenovo kappa)
Časové okno: Na konci studie, přibližně 12 měsíců
|
Cohenův kappa koeficient měřící shodu mezi klasifikací BI-RADS každého AI modelu a expertní konsenzuální anotací, uvedený s 95% intervaly spolehlivosti.
|
Na konci studie, přibližně 12 měsíců
|
|
Míra odmítnutí mimo distribuci
Časové okno: Po dokončení studie, přibližně 12 měsíců
|
Podíl nediagnostických snímků (snížená kvalita, ultrazvuk jiných částí těla než prsu, jiné zobrazovací modality) správně identifikovaných a odmítnutých umělou inteligencí, posuzující bezpečnost domény.
|
Po dokončení studie, přibližně 12 měsíců
|
|
Senzitivita, Specificita, PPV, NPV a F1 Skóre
Časové okno: Na konci studie, přibližně 12 měsíců
|
Standardní diagnostické výkonnostní metriky pro klasifikaci benigní-maligní, hlášené pro každý model AI jednotlivě.
|
Na konci studie, přibližně 12 měsíců
|
Spolupracovníci a vyšetřovatelé
Spolupracovníci
Vyšetřovatelé
- Vrchní vyšetřovatel: Qingli Zhu, MD, Peking Union Medical College Hospital
Publikace a užitečné odkazy
Obecné publikace
- Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May;71(3):209-249. doi: 10.3322/caac.21660. Epub 2021 Feb 4.
- Bi WL, Hosny A, Schabath MB, Giger ML, Birkbak NJ, Mehrtash A, Allison T, Arnaout O, Abbosh C, Dunn IF, Mak RH, Tamimi RM, Tempany CM, Swanton C, Hoffmann U, Schwartz LH, Gillies RJ, Huang RY, Aerts HJWL. Artificial intelligence in cancer imaging: Clinical challenges and applications. CA Cancer J Clin. 2019 Mar;69(2):127-157. doi: 10.3322/caac.21552. Epub 2019 Feb 5.
- Collins GS, Moons KGM, Dhiman P, Riley RD, Beam AL, Van Calster B, Ghassemi M, Liu X, Reitsma JB, van Smeden M, Boulesteix AL, Camaradou JC, Celi LA, Denaxas S, Denniston AK, Glocker B, Golub RM, Harvey H, Heinze G, Hoffman MM, Kengne AP, Lam E, Lee N, Loder EW, Maier-Hein L, Mateen BA, McCradden MD, Oakden-Rayner L, Ordish J, Parnell R, Rose S, Singh K, Wynants L, Logullo P. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 16;385:e078378. doi: 10.1136/bmj-2023-078378.
- Benary M, Wang XD, Schmidt M, Soll D, Hilfenhaus G, Nassir M, Sigler C, Knodler M, Keller U, Beule D, Keilholz U, Leser U, Rieke DT. Leveraging Large Language Models for Decision Support in Personalized Oncology. JAMA Netw Open. 2023 Nov 1;6(11):e2343689. doi: 10.1001/jamanetworkopen.2023.43689.
- Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023 Jun;307(5):e230582. doi: 10.1148/radiol.230582. Epub 2023 May 16.
- Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Loffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. doi: 10.1038/s43856-023-00370-1.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021 Dec;27(12):2176-2182. doi: 10.1038/s41591-021-01595-0. Epub 2021 Dec 10.
- Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, Rajpurkar P. Foundation models for generalist medical artificial intelligence. Nature. 2023 Apr;616(7956):259-265. doi: 10.1038/s41586-023-05881-4. Epub 2023 Apr 12.
- Miaojiao S, Xia L, Xian Tao Z, Zhi Liang H, Sheng C, Songsong W. Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study. JMIR Med Inform. 2025 Jun 11;13:e70924. doi: 10.2196/70924.
- Jiao J, Zhou J, Li X, Xia M, Huang Y, Huang L, Wang N, Zhang X, Zhou S, Wang Y, Guo Y. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal. 2024 Aug;96:103202. doi: 10.1016/j.media.2024.103202. Epub 2024 May 15.
- Xiang H, Wang X, Xu M, Zhang Y, Zeng S, Li C, Liu L, Deng T, Tang G, Yan C, Ou J, Lin Q, He J, Sun P, Li A, Chen H, Heng PA, Lin X. Deep Learning-assisted Diagnosis of Breast Lesions on US Images: A Multivendor, Multicenter Study. Radiol Artif Intell. 2023 Jul 12;5(5):e220185. doi: 10.1148/ryai.220185. eCollection 2023 Sep.
- Kottlors J, Iuga AI, Bluethgen C, Bressem K, Kather JN, Moy L, Wald C, Wang W, Liu T, Ranschaert E, Dratsch T, Kleesiek J, Gertz RJ, Rajpurkar P, Bedayat A, Fink MA, Zeeck A, Chaudhari A, Alkasab T, Wu H, Nensa F, Wang B, Grosse Hokamp N, Laukamp KR, Persigehl T, Maintz D, Truhn D, Lennartz S. Guidelines for Reporting Studies on Large Language Models in Radiology: An International Delphi Expert Survey. Radiology. 2026 Feb;318(2):e250913. doi: 10.1148/radiol.250913.
Termíny studijních záznamů
Hlavní termíny studia
Začátek studia (Aktuální)
Primární dokončení (Odhadovaný)
Dokončení studie (Odhadovaný)
Termíny zápisu do studia
První předloženo
První předloženo, které splnilo kritéria kontroly kvality
První zveřejněno (Aktuální)
Aktualizace studijních záznamů
Poslední zveřejněná aktualizace (Aktuální)
Odeslaná poslední aktualizace, která splnila kritéria kontroly kvality
Naposledy ověřeno
Více informací
Termíny související s touto studií
Klíčová slova
Další relevantní podmínky MeSH
Další identifikační čísla studie
- K10349
- 2024-I2M-CT-B-035 (Jiné číslo grantu/financování: CAMS Innovation Fund for Medical Sciences)
- I-26PJ0568 (Jiný identifikátor: Ethics Committee, Peking Union Medical College Hospital)
Plán pro data jednotlivých účastníků (IPD)
Plánujete sdílet data jednotlivých účastníků (IPD)?
Popis plánu IPD
Časový rámec sdílení IPD
Kritéria přístupu pro sdílení IPD
Typ podpůrných informací pro sdílení IPD
- PROTOKOL STUDY
- MÍZA
- ANALYTIC_CODE
Informace o lécích a zařízeních, studijní dokumenty
Studuje lékový produkt regulovaný americkým FDA
Studuje produkt zařízení regulovaný americkým úřadem FDA
Tyto informace byly beze změn načteny přímo z webu clinicaltrials.gov. Máte-li jakékoli požadavky na změnu, odstranění nebo aktualizaci podrobností studie, kontaktujte prosím register@clinicaltrials.gov. Jakmile bude změna implementována na clinicaltrials.gov, bude automaticky aktualizována i na našem webu .
Klinické studie na Novotvary prsu
-
Tianjin Medical University Cancer Institute and...Guangxi Medical University; Sun Yat-sen University; Chinese PLA General Hospital a další spolupracovníciDokončenoPrůvodce klinickou aplikací Conebeam Breast CTČína
-
Xijing HospitalAktivní, ne náborRakovina prsu | Rakovina prsu (Triple Negative Breast Cancer (TNBC))Čína
-
Gangnam Severance HospitalNáborHER2 Enriched Subtype Cancer Breast, Herzuma, PAM50 StudyKorejská republika
-
Shanghai Henlius BiotechZatím nenabírámeRakovina prsu (Triple Negative Breast Cancer (TNBC))Čína
-
BioNTech SESeventh Framework ProgrammeDokončenoRakovina prsu (Triple Negative Breast Cancer (TNBC))Švédsko, Německo
-
Jonsson Comprehensive Cancer CenterNational Cancer Institute (NCI); National Institutes of Health (NIH); Rising...NáborAnatomický karcinom prsu stadia II AJCC v8 | Anatomický karcinom prsu stadia III AJCC v8 | Rané stadium karcinomu prsu | Anatomic Stage I Breast Cancer American Joint Committee on Cancer (AJCC) v8Spojené státy
-
Emory UniversityNational Cancer Institute (NCI)StaženoPrognostický karcinom prsu stadia IV AJCC v8 | Metastatický maligní novotvar v mozku | Metastatický karcinom prsu | Anatomic Stage IV Breast Cancer American Joint Committee on Cancer (AJCC) v8
-
NRG OncologyNational Cancer Institute (NCI)DokončenoAnatomický karcinom prsu stadia IV AJCC v8 | Prognostický karcinom prsu stadia IV AJCC v8 | Metastatický maligní novotvar v kosti | Metastatický maligní novotvar v lymfatických uzlinách | Metastatický maligní novotvar v játrech | Metastatický karcinom prsu | Metastatický maligní novotvar v plicích | Metastatický... a další podmínkySpojené státy, Kanada, Saudská arábie, Jižní Korea
-
Jessica Mezzanotte SharpeNáborNemalobuněčný karcinom plic | Klasický Hodgkinův lymfom | Spinocelulární karcinom v ústech | Melanom (rakovina kůže) | Rakovina prsu (Triple Negative Breast Cancer (TNBC)) | Invazivní karcinom prsu | Renální buněčný karcinom (rakovina ledvin) | Rakovina konečníku s MSI-H/dMMRSpojené státy
Klinické studie na Víceúčelové diagnostické hodnocení modelu umělé inteligence
-
Jilan Adel yousefDokončenoPosturální; PřeběhnoutEgypt