- ICH GCP
- US Clinical Trials Registry
- Klinisk forsøg NCT07500428
Udarbejdelse af et benchmark til brystultralyd AI-tolkning og ydeevnevurdering af multimodal AI-modeller (BUST-AI Bench)
Udarbejdelse af et standardiseret benchmark-evalueringssystem til intelligent brystultralydsbilledfortolkning og systematisk ydeevnevurdering af multimodal kunstig intelligens-modeller baseret på ACR BI-RADS v2025-kriterier
Dette single-center, retrospektive, observationsstudie har til formål at konstruere et standardiseret benchmark-evaluationssystem for intelligent brystultralydsbilledfortolkning og systematisk at vurdere den diagnostiske præstation af nuværende mainstream multimodal kunstig intelligens (AI)-modeller.
De-identificerede B-mode brystultralydsbilleder med bekræftede patologiske diagnoser vil blive indsamlet retrospektivt fra institutionens arkiv (2018-2025) og suppleret med billeder fra offentliggjorte åbne adgangsdatasæt. Ekspertradiologer med varierende erfaring vil uafhængigt annotere alle billeder i henhold til American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025-kriterier, herunder kirtelvævsammensætning, læsionskarakteristik (masse vs. ikke-masse læsion), morfologiske deskriptorer og endelig BI-RADS-klassifikation.
Baseline deep learning-modeller (CNN-baserede ResNet-50 og Transformer-baserede USFM) vil blive trænet for at etablere ydelsesbaselines og stratificere tilfælde efter diagnostisk vanskelighed gennem tværarhitekturkonsensus. Flere multimodale store sprogmodeller (MLLMs), inklusive både generelle og medicinske domænemodeller, vil derefter blive evalueret via standardiserede API-kald ved hjælp af BI-RADS-styrede chain-of-thought-prompts ved temperatur 0 for reproducerbarhed.
Primære endpoints inkluderer BI-RADS-klassifikationsnøjagtighed og diagnostisk AUC for benign-malign differentiering. Modellernes robusthed og sikkerhed vil blive vurderet gennem out-of-distribution-afvisningstest, temperaturstabilitetseksperimenter og tænkemåde-ablation-studier. Dette studie overholder FLAIR- og TRIPOD-LLM-rapporteringsretningslinjerne.
Studieoversigt
Status
Betingelser
Intervention / Behandling
Detaljeret beskrivelse
Baggrund: Brystkræft er den mest udbredte ondartede svulst blandt kvinder på verdensplan. Ultralyd er en første-linjes screeningsmetode, især hos asiatiske befolkningsgrupper med tæt brystvæv, hvor mammografisk sensitivitet er begrænset. Dog er ultralydsfortolkning stærkt operatørafhængig, med betydelig variation mellem observatører i BI-RADS-klassifikation, især for kategorier 4A-4B læsioner. Multimodale store sprogmodeller (MLLM'er) er opstået som et lovende værktøj til medicinsk billedanalyse på grund af deres zero-shot diagnostiske evne, fortolkelig kæde-af-tænkning ræsonnement og struktureret rapportgenerering. Ikke desto mindre er der i øjeblikket ingen standardiseret benchmark til evaluering af AI-præstation i brystultralydsfortolkning.
Studiedesign: Cirka 1.380 brystultralydsbilleder vil blive kurateret (1.200 evalueringssæt + 150 out-of-distribution sikkerhedstestsæt + 30 prompt-udviklingssæt), omfattende tre diagnostiske kategorier: normalt bryst, godartede læsioner (BI-RADS 2-4B) og ondartede læsioner (BI-RADS 3-5). To junior radiologer (<5 års erfaring) og to senior radiologer (>15 år) vil uafhængigt annotere billeder pr. ACR BI-RADS v2025 med voldgift af en femte ekspert for uenige tilfælde.
Diagnostisk vanskelighed vil blive stratificeret i tre niveauer ved hjælp af tværarkitektur deep learning konsensus: Niveau 1 (ligetil, begge modeller korrekte), Niveau 2 (tvetydig, én korrekt/en forkert) og Niveau 3 (vanskelig, begge forkerte, med senior ekspert validering). MLLM'er vil blive evalueret på tværs af flere dimensioner: klassifikationsnøjagtighed, sensitivitet, specificitet, F1-score, AUC, Cohen's kappa overensstemmelse med ekspertkonsensus, forventet kalibreringsfejl (ECE), morfologisk funktionsbeskrivelsesnøjagtighed og kæde-af-tænkning ræsonnementkvalitet.
Sikkerhedsvurdering: (1) Out-of-distribution afvisningstest ved brug af 150 ikke-diagnostiske billeder (forringede billeder, ikke-bryst ultralyd, andre billedmodaliteter); (2) Temperaturstabilitetsforsøg forud for eksperimentet på tværs af parameterindstillinger; (3) Tænkemode ablation sammenligning af standard vs. kæde-af-tænkning ræsonnementtilstande. Alle eksperimenter bruger faste modelsnapshots, system fingeraftryk overvågning og komplet logning for reproducerbarhed.
Undersøgelsestype
Tilmelding (Anslået)
Kontakter og lokationer
Studiekontakt
- Navn: Qingli Zhu, MD
- Telefonnummer: +86 13621376699
- E-mail: zqlpumch@126.com
Undersøgelse Kontakt Backup
- Navn: Yinglan Wu, MD
- Telefonnummer: +86 15626121076
- E-mail: wuylan7@gmail.com
Studiesteder
-
-
-
Beijing, Kina, 100730
- Rekruttering
- Peking Union Medical College Hospital
-
Kontakt:
- Qingli Zhu, MD
- Telefonnummer: +86 13621376699
- E-mail: zqlpumch@126.com
-
-
Deltagelseskriterier
Berettigelseskriterier
Aldre berettiget til at studere
- Voksen
- Ældre voksen
Tager imod sunde frivillige
Prøveudtagningsmetode
Studiebefolkning
Beskrivelse
Inklusionskriterier:
- B-mode brystultralyd gråtonebilleder fra institutionens PACS-database eller fra offentliggjorte åbne adgangs brystultralyd-datasæt med dokumenteret oprindelig institutionel etisk godkendelse
- Billedkvalitet tilstrækkelig til klinisk diagnose med klar visualisering af interesseområdet
- Patologisk diagnose bekræftet (for godartede og ondartede læsionsgrupper), eller normal bryststatus bekræftet af en senior radiolog med >15 års erfaring med brystultralyd (for normalgruppen)
- Fuld de-identifikation med fjernelse af al personligt identificerbar information
Eksklusionskriterier:
- Alvorligt forringet billedkvalitet, der forhindrer meningsfuld BI-RADS-vurdering
- Duplikatbilleder fra samme patient (kun det mest repræsentative billede beholdt pr. læsion)
- Billeder med resterende personligt identificerbar information efter de-identifikationsbehandling
- Tilfælde med tvetydige, omstridte eller utilgængelige patologiske resultater
- Ikke-B-mode ultralydbilleder, herunder elastografi, kontrastforstærket ultralyd og Doppler-billeddannelse
Studieplan
Hvordan er undersøgelsen tilrettelagt?
Design detaljer
Kohorter og interventioner
Gruppe / kohorte |
Intervention / Behandling |
|---|---|
|
Normal Bryst
Brystultralydbilleder, der viser normalt kirtelvæv på tværs af forskellige vævssammensætningstyper, uden identificerede fokale læsioner.
Bekræftet af seniorradiolog gennemgang.
|
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API.
Ingen patientkontakt eller klinisk beslutningstagning er involveret.
|
|
Godartet læsion
Brystultralydbilleder med patologisk bekræftede godartede læsioner (BI-RADS 2-4B), herunder fibroadenom, cyste, lipom, skleroserende adenose, intraduktalt papillom og udvalgte ikke-masse læsioner (NML).
|
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API.
Ingen patientkontakt eller klinisk beslutningstagning er involveret.
|
|
Malign læsion
Brystultralydbilleder, der indeholder patologisk bekræftede maligne læsioner (BI-RADS 3-5), herunder invasiv duktalcarcinom, invasiv lobulært carcinom, mucinøst carcinom og udvalgte ikke-masse læsioner (NML).
|
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API.
Ingen patientkontakt eller klinisk beslutningstagning er involveret.
|
Hvad måler undersøgelsen?
Primære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Diagnostisk nøjagtighed for patologisk diagnose
Tidsramme: Ved afslutningen af undersøgelsen, cirka 12 måneder
|
Sensitivitet, specificitet, positiv prædiktiv værdi (PPV), negativ prædiktiv værdi (NPV) og F1-score for AI-modeller til godartet-malign klassifikation, med histopatologisk diagnose som guldstandarden.
|
Ved afslutningen af undersøgelsen, cirka 12 måneder
|
|
BI-RADS Klassifikationsnøjagtighed
Tidsramme: Ved afslutning af undersøgelsen, cirka 12 måneder
|
Den samlede nøjagtighed af AI-modeller i tildeling af BI-RADS-kategorier (2, 3, 4A, 4B, 4C, 5) til brystultralydsbilleder, sammenlignet med ekspertkonsensusannotation som referencestandard.
|
Ved afslutning af undersøgelsen, cirka 12 måneder
|
Sekundære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Overensstemmelse med ekspertkonsensus (Cohen's Kappa)
Tidsramme: Ved afslutning af undersøgelsen, cirka 12 måneder
|
Cohen's kappa-koefficient, der måler overensstemmelsen mellem hver AI-model's BI-RADS-klassifikation og ekspertkonsensusannotationen, rapporteret med 95% konfidensintervaller.
|
Ved afslutning af undersøgelsen, cirka 12 måneder
|
|
Rate for Afvisning uden for Distributionen
Tidsramme: Ved afslutningen af studiet, ca. 12 måneder
|
Andel af ikke-diagnostiske billeder (forringet kvalitet, ikke-brystultralyd, andre billeddannelsesmetoder) korrekt identificeret og afvist af AI-modeller, som vurderer domænesikkerhed.
|
Ved afslutningen af studiet, ca. 12 måneder
|
|
Sensitivitet, Specificitet, PPV, NPV og F1-score
Tidsramme: Ved afslutningen af undersøgelsen, cirka 12 måneder
|
Standard diagnostiske ydeevnemål for godartet-kræftsvulst klassificering, rapporteret for hver AI-model individuelt.
|
Ved afslutningen af undersøgelsen, cirka 12 måneder
|
Samarbejdspartnere og efterforskere
Samarbejdspartnere
Efterforskere
- Ledende efterforsker: Qingli Zhu, MD, Peking Union Medical College Hospital
Publikationer og nyttige links
Generelle publikationer
- Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May;71(3):209-249. doi: 10.3322/caac.21660. Epub 2021 Feb 4.
- Bi WL, Hosny A, Schabath MB, Giger ML, Birkbak NJ, Mehrtash A, Allison T, Arnaout O, Abbosh C, Dunn IF, Mak RH, Tamimi RM, Tempany CM, Swanton C, Hoffmann U, Schwartz LH, Gillies RJ, Huang RY, Aerts HJWL. Artificial intelligence in cancer imaging: Clinical challenges and applications. CA Cancer J Clin. 2019 Mar;69(2):127-157. doi: 10.3322/caac.21552. Epub 2019 Feb 5.
- Collins GS, Moons KGM, Dhiman P, Riley RD, Beam AL, Van Calster B, Ghassemi M, Liu X, Reitsma JB, van Smeden M, Boulesteix AL, Camaradou JC, Celi LA, Denaxas S, Denniston AK, Glocker B, Golub RM, Harvey H, Heinze G, Hoffman MM, Kengne AP, Lam E, Lee N, Loder EW, Maier-Hein L, Mateen BA, McCradden MD, Oakden-Rayner L, Ordish J, Parnell R, Rose S, Singh K, Wynants L, Logullo P. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 16;385:e078378. doi: 10.1136/bmj-2023-078378.
- Benary M, Wang XD, Schmidt M, Soll D, Hilfenhaus G, Nassir M, Sigler C, Knodler M, Keller U, Beule D, Keilholz U, Leser U, Rieke DT. Leveraging Large Language Models for Decision Support in Personalized Oncology. JAMA Netw Open. 2023 Nov 1;6(11):e2343689. doi: 10.1001/jamanetworkopen.2023.43689.
- Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023 Jun;307(5):e230582. doi: 10.1148/radiol.230582. Epub 2023 May 16.
- Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Loffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. doi: 10.1038/s43856-023-00370-1.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021 Dec;27(12):2176-2182. doi: 10.1038/s41591-021-01595-0. Epub 2021 Dec 10.
- Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, Rajpurkar P. Foundation models for generalist medical artificial intelligence. Nature. 2023 Apr;616(7956):259-265. doi: 10.1038/s41586-023-05881-4. Epub 2023 Apr 12.
- Miaojiao S, Xia L, Xian Tao Z, Zhi Liang H, Sheng C, Songsong W. Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study. JMIR Med Inform. 2025 Jun 11;13:e70924. doi: 10.2196/70924.
- Jiao J, Zhou J, Li X, Xia M, Huang Y, Huang L, Wang N, Zhang X, Zhou S, Wang Y, Guo Y. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal. 2024 Aug;96:103202. doi: 10.1016/j.media.2024.103202. Epub 2024 May 15.
- Xiang H, Wang X, Xu M, Zhang Y, Zeng S, Li C, Liu L, Deng T, Tang G, Yan C, Ou J, Lin Q, He J, Sun P, Li A, Chen H, Heng PA, Lin X. Deep Learning-assisted Diagnosis of Breast Lesions on US Images: A Multivendor, Multicenter Study. Radiol Artif Intell. 2023 Jul 12;5(5):e220185. doi: 10.1148/ryai.220185. eCollection 2023 Sep.
- Kottlors J, Iuga AI, Bluethgen C, Bressem K, Kather JN, Moy L, Wald C, Wang W, Liu T, Ranschaert E, Dratsch T, Kleesiek J, Gertz RJ, Rajpurkar P, Bedayat A, Fink MA, Zeeck A, Chaudhari A, Alkasab T, Wu H, Nensa F, Wang B, Grosse Hokamp N, Laukamp KR, Persigehl T, Maintz D, Truhn D, Lennartz S. Guidelines for Reporting Studies on Large Language Models in Radiology: An International Delphi Expert Survey. Radiology. 2026 Feb;318(2):e250913. doi: 10.1148/radiol.250913.
Datoer for undersøgelser
Studer store datoer
Studiestart (Faktiske)
Primær færdiggørelse (Anslået)
Studieafslutning (Anslået)
Datoer for studieregistrering
Først indsendt
Først indsendt, der opfyldte QC-kriterier
Først opslået (Faktiske)
Opdateringer af undersøgelsesjournaler
Sidste opdatering sendt (Faktiske)
Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier
Sidst verificeret
Mere information
Begreber relateret til denne undersøgelse
Nøgleord
Yderligere relevante MeSH-vilkår
Andre undersøgelses-id-numre
- K10349
- 2024-I2M-CT-B-035 (Andet bevillings-/finansieringsnummer: CAMS Innovation Fund for Medical Sciences)
- I-26PJ0568 (Anden identifikator: Ethics Committee, Peking Union Medical College Hospital)
Plan for individuelle deltagerdata (IPD)
Planlægger du at dele individuelle deltagerdata (IPD)?
IPD-planbeskrivelse
IPD-delingstidsramme
IPD-delingsadgangskriterier
IPD-deling Understøttende informationstype
- STUDY_PROTOCOL
- SAP
- ANALYTIC_CODE
Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter
Studerer et amerikansk FDA-reguleret lægemiddelprodukt
Studerer et amerikansk FDA-reguleret enhedsprodukt
Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .
Kliniske forsøg med Brystneoplasmer
-
Guangzhou First People's HospitalAfsluttet
-
Cairo UniversityIkke rekrutterer endnu
-
The First Affiliated Hospital of Xiamen UniversityIkke rekrutterer endnuLocally Advanced Breast Cancer (LABC)
-
Abouqir General HospitalAlexandria UniversityRekrutteringBreast Udseende Rekonstruktion DisproportionEgypten
-
Beijing Bio-Targeting Therapeutics Technology Co...Trukket tilbage
-
Indonesia UniversityIkke rekrutterer endnuPræhabilitering | Postoperativ inflammation | Locally Advanced Breast Cancer (LABC)Indonesien
-
Tianjin Medical University Cancer Institute and...Guangxi Medical University; Sun Yat-sen University; Chinese PLA General Hospital og andre samarbejdspartnereAfsluttetDen kliniske anvendelsesvejledning af Conebeam Breast CTKina
-
Asan Medical CenterRekrutteringMavekræft | Mavekræft Adenocarcinom Metastatisk | MAVE NEOPLASMSydkorea
-
Atlas UniversityIkke rekrutterer endnuBrystkræft | Locally Advanced Breast Cancer (LABC)Tyrkiet (Türkiye)
-
ETOP IBCSG Partners FoundationAfsluttetBreast Cancer Invasive NosItalien
Kliniske forsøg med Multimodal AI-model diagnostisk evaluering
-
Huazhong University of Science and TechnologyRekrutteringLeiomyom | Schwannoma | Gastrointestinal stromal tumor (GIST) | Submucosal tumorKina
-
Qun ZhaoAfsluttetGastrointestinale stromale tumorer | Gastriske subepiteliale tumorer | Kunstig intelligens (AI) | Gastrisk Leiomyom | Multimodal billeddannelseKina
-
Jilan Adel yousefAfsluttetPostural; DefektEgypten
-
Anhui Provincial HospitalThe First Affiliated Hospital of Soochow University; Ningbo No. 1 HospitalRekrutteringKunstig intelligens | LungeknudeKina
-
Tsinghua UniversityRekruttering
-
The Eye Hospital of Wenzhou Medical UniversityAfsluttet
-
Ruijin HospitalFudan University; Affiliated Hospital of Jiangnan University; Shanghai 10th... og andre samarbejdspartnereRekruttering
-
Cairo UniversityIkke rekrutterer endnuEndodonti | AI (kunstig intelligens) | Deep Learning Model | Perforering | Missede kanaler | Endodontisk genbehandling | Non-surgical Retreatment | DIFFICULTY ASSESSMENT | SEPARATED INSTRUMENT | Poor Obturation | Obturation Quality
-
Valentina CerroneFederico II University; University of Salerno, ItalyRekrutteringKronisk smerte | Neuropatisk smerte | Kræftsmerter | SmertevurderingItalien