- ICH GCP
- US-Register für klinische Studien
- Klinische Studie NCT07500428
Aufbau eines Benchmarks für die KI-Interpretation von Brustultraschall und Leistungsbewertung multimodaler KI-Modelle (BUST-AI Bench)
Konstruktion eines standardisierten Benchmark-Bewertungssystems für die intelligente Brustultraschallbildinterpretation und systematische Leistungsbewertung multimodaler künstlicher Intelligenz-Modelle basierend auf ACR BI-RADS v2025-Kriterien
Diese monozentrische, retrospektive, beobachtende Studie zielt darauf ab, ein standardisiertes Benchmark-Evaluierungssystem für die intelligente Interpretation von Brustultraschallbildern zu entwickeln und die diagnostische Leistung aktueller multimodaler künstlicher Intelligenz (KI)-Modelle systematisch zu bewerten.
Anonymisierte B-Mode-Brustultraschallbilder mit bestätigten pathologischen Diagnosen werden retrospektiv aus dem institutionellen Archiv (2018-2025) gesammelt und durch Bilder aus veröffentlichten, frei zugänglichen Datensätzen ergänzt. Expertentechnische Radiologen mit unterschiedlichen Erfahrungsniveaus werden alle Bilder unabhängig gemäß den Kriterien des American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025 annotieren, einschließlich der Zusammensetzung des Drüsengewebes, der Läsionscharakterisierung (Masse vs. Nicht-Massenläsion), morphologischer Deskriptoren und der endgültigen BI-RADS-Klassifizierung.
Baseline Deep-Learning-Modelle (CNN-basiertes ResNet-50 und Transformer-basiertes USFM) werden trainiert, um Leistungsbaselines zu etablieren und Fälle durch konsensuelle Bewertung über Architekturen hinweg nach diagnostischer Schwierigkeit zu stratifizieren. Mehrere multimodale große Sprachmodelle (MLLMs), einschließlich allgemeiner und medizinischer Domänenmodelle, werden dann über standardisierte API-Aufrufe mit BI-RADS-gesteuerten Chain-of-Thought-Prompts bei Temperatur 0 für Reproduzierbarkeit evaluiert.
Primäre Endpunkte umfassen die Genauigkeit der BI-RADS-Klassifizierung und die diagnostische AUC für die Unterscheidung zwischen benignen und malignen Befunden. Die Robustheit und Sicherheit der Modelle wird durch Out-of-Distribution-Rejection-Tests, Temperaturstabilitätsexperimente und Thinking-Mode-Ablationsstudien bewertet. Diese Studie hält sich an die FLAIR- und TRIPOD-LLM-Berichtsrichtlinien.
Studienübersicht
Status
Bedingungen
Intervention / Behandlung
Detaillierte Beschreibung
Hintergrund: Brustkrebs ist die häufigste bösartige Erkrankung bei Frauen weltweit. Ultraschall ist eine Erstuntersuchungsmodalität, insbesondere bei asiatischen Bevölkerungsgruppen mit dichtem Brustgewebe, bei denen die mammografische Sensitivität eingeschränkt ist. Die Ultraschallinterpretation ist jedoch stark operatorabhängig, mit erheblicher Inter-Observer-Variabilität bei der BI-RADS-Klassifikation, insbesondere für Läsionen der Kategorie 4A-4B. Multimodale Large Language Models (MLLMs) haben sich aufgrund ihrer Zero-Shot-Diagnosefähigkeit, interpretierbaren Chain-of-Thought-Begründung und strukturierten Berichterstellung als vielversprechendes Werkzeug für die medizinische Bildanalyse erwiesen. Gleichzeitig gibt es derzeit keinen standardisierten Benchmark zur Bewertung der KI-Leistung bei der Brustultraschallinterpretation.
Studiendesign: Es werden etwa 1.380 Brustultraschallbilder kuratiert (1.200 Bewertungssatz + 150 Out-of-Distribution-Sicherheitstestsatz + 30 Prompt-Entwicklungssatz), die drei diagnostische Kategorien umfassen: normale Brust, gutartige Läsionen (BI-RADS 2-4B) und bösartige Läsionen (BI-RADS 3-5). Zwei Nachwuchsradiologen (<5 Jahre Erfahrung) und zwei erfahrene Radiologen (>15 Jahre) werden die Bilder unabhängig gemäß ACR BI-RADS v2025 annotieren, wobei ein fünfter Experte bei widersprüchlichen Fällen schlichtet.
Die diagnostische Schwierigkeit wird mithilfe eines architekturübergreifenden Deep-Learning-Konsenses in drei Stufen unterteilt: Stufe 1 (einfach, beide Modelle korrekt), Stufe 2 (uneindeutig, eines korrekt/eines inkorrekt) und Stufe 3 (schwierig, beide inkorrekt, mit Validierung durch erfahrene Experten). MLLMs werden in mehreren Dimensionen bewertet: Klassifikationsgenauigkeit, Sensitivität, Spezifität, F1-Score, AUC, Cohen's Kappa-Übereinstimmung mit Expertenkonsens, erwarteter Kalibrierungsfehler (ECE), Genauigkeit der morphologischen Merkmalsbeschreibung und Qualität der Chain-of-Thought-Begründung.
Sicherheitsbewertung: (1) Out-of-Distribution-Ablehnungstest mit 150 nicht-diagnostischen Bildern (qualitätsgeminderte Bilder, Nicht-Brustultraschall, andere Bildgebungsmodalitäten); (2) Temperaturstabilitäts-Vorexperiment über verschiedene Parametereinstellungen; (3) Thinking-Mode-Ablation mit Vergleich von Standard- vs. Chain-of-Thought-Begründungsmodi. Alle Experimente verwenden feste Model-Snapshots, System-Fingerprint-Überwachung und vollständige Protokollierung für Reproduzierbarkeit.
Studientyp
Einschreibung (Geschätzt)
Kontakte und Standorte
Studienkontakt
- Name: Qingli Zhu, MD
- Telefonnummer: +86 13621376699
- E-Mail: zqlpumch@126.com
Studieren Sie die Kontaktsicherung
- Name: Yinglan Wu, MD
- Telefonnummer: +86 15626121076
- E-Mail: wuylan7@gmail.com
Studienorte
-
-
-
Beijing, China, 100730
- Rekrutierung
- Peking Union Medical College Hospital
-
Kontakt:
- Qingli Zhu, MD
- Telefonnummer: +86 13621376699
- E-Mail: zqlpumch@126.com
-
-
Teilnahmekriterien
Zulassungskriterien
Studienberechtigtes Alter
- Erwachsene
- Älterer Erwachsener
Akzeptiert gesunde Freiwillige
Probenahmeverfahren
Studienpopulation
Beschreibung
Einschlusskriterien:
- B-Modus-Brustultraschall-Graustufenbilder aus der institutionellen PACS-Datenbank oder aus veröffentlichten, frei zugänglichen Brustultraschall-Datensätzen mit dokumentierter ursprünglicher institutioneller Ethikgenehmigung
- Bildqualität ausreichend für die klinische Diagnose mit klarer Darstellung des interessierenden Bereichs
- Pathologische Diagnose bestätigt (für gutartige und bösartige Läsionsgruppen) oder normaler Bruststatus bestätigt durch einen erfahrenen Radiologen mit >15 Jahren Brustultraschall-Erfahrung (für die Normalgruppe)
- Vollständige Anonymisierung mit Entfernung aller personenbezogenen Informationen
Ausschlusskriterien:
- Stark beeinträchtigte Bildqualität, die eine aussagekräftige BI-RADS-Beurteilung unmöglich macht
- Doppelte Bilder desselben Patienten (nur das repräsentativste Bild pro Läsion beibehalten)
- Bilder mit verbleibenden personenbezogenen Informationen nach der Anonymisierungsverarbeitung
- Fälle mit mehrdeutigen, umstrittenen oder nicht verfügbaren pathologischen Ergebnissen
- Nicht-B-Modus-Ultraschallbilder, einschließlich Elastographie, kontrastmittelgestützter Ultraschall und Doppler-Bildgebung
Studienplan
Wie ist die Studie aufgebaut?
Designdetails
Kohorten und Interventionen
Gruppe / Kohorte |
Intervention / Behandlung |
|---|---|
|
Normale Brust
Brustultraschallbilder zeigen normales Drüsengewebe bei verschiedenen Gewebezusammensetzungen, ohne dass fokale Läsionen identifiziert wurden.
Bestätigt durch Überprüfung eines leitenden Radiologen.
|
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API.
Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.
|
|
Gutartige Läsion
Brustultraschallbilder mit pathologisch bestätigten benignen Läsionen (BI-RADS 2-4B), einschließlich Fibroadenom, Zyste, Lipom, sklerosierende Adenose, intraduktales Papillom und ausgewählte Nicht-Massen-Läsionen (NML).
|
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API.
Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.
|
|
Maligne Läsion
Brustultraschallbilder mit pathologisch bestätigten malignen Läsionen (BI-RADS 3-5), einschließlich invasivem duktalen Karzinom, invasivem lobulärem Karzinom, muzinösem Karzinom und ausgewählten Nicht-Masse-Läsionen (NML).
|
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API.
Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.
|
Was misst die Studie?
Primäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
Diagnostische Genauigkeit für die pathologische Diagnose
Zeitfenster: Am Ende der Studie, nach etwa 12 Monaten
|
Sensitivität, Spezifität, positiver prädiktiver Wert (PPV), negativer prädiktiver Wert (NPV) und F1-Score von KI-Modellen für die Benigne-Maligne-Klassifikation mit histopathologischer Diagnose als Goldstandard.
|
Am Ende der Studie, nach etwa 12 Monaten
|
|
BI-RADS-Klassifikationsgenauigkeit
Zeitfenster: Am Ende der Studie, ungefähr 12 Monate
|
Gesamtgenauigkeit von KI-Modellen bei der Zuordnung von BI-RADS-Kategorien (2, 3, 4A, 4B, 4C, 5) zu Brustultraschallbildern, verglichen mit Expertenkonsensannotation als Referenzstandard.
|
Am Ende der Studie, ungefähr 12 Monate
|
Sekundäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
Übereinstimmung mit Expertenkonsens (Cohens Kappa)
Zeitfenster: Am Ende der Studie, etwa 12 Monate
|
Cohens Kappa-Koeffizient, der die Übereinstimmung zwischen der BI-RADS-Klassifikation jedes KI-Modells und der Expertenkonsens-Annotation misst, berichtet mit 95%-Konfidenzintervallen.
|
Am Ende der Studie, etwa 12 Monate
|
|
Out-of-Distribution-Ablehnungsrate
Zeitfenster: Bei Studienabschluss, etwa 12 Monate
|
Anteil der nicht-diagnostischen Bilder (qualitativ beeinträchtigt, keine Brustultraschallaufnahmen, andere Bildgebungsmodalitäten), die von KI-Modellen korrekt identifiziert und abgelehnt wurden, zur Bewertung der Domänensicherheit.
|
Bei Studienabschluss, etwa 12 Monate
|
|
Sensitivität, Spezifität, PPV, NPV und F1-Score
Zeitfenster: Nach Studienabschluss, etwa 12 Monate
|
Standarddiagnostische Leistungsmetriken für die Benigne-Maligne-Klassifikation, individuell für jedes KI-Modell berichtet.
|
Nach Studienabschluss, etwa 12 Monate
|
Mitarbeiter und Ermittler
Mitarbeiter
Ermittler
- Hauptermittler: Qingli Zhu, MD, Peking Union Medical College Hospital
Publikationen und hilfreiche Links
Allgemeine Veröffentlichungen
- Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May;71(3):209-249. doi: 10.3322/caac.21660. Epub 2021 Feb 4.
- Bi WL, Hosny A, Schabath MB, Giger ML, Birkbak NJ, Mehrtash A, Allison T, Arnaout O, Abbosh C, Dunn IF, Mak RH, Tamimi RM, Tempany CM, Swanton C, Hoffmann U, Schwartz LH, Gillies RJ, Huang RY, Aerts HJWL. Artificial intelligence in cancer imaging: Clinical challenges and applications. CA Cancer J Clin. 2019 Mar;69(2):127-157. doi: 10.3322/caac.21552. Epub 2019 Feb 5.
- Collins GS, Moons KGM, Dhiman P, Riley RD, Beam AL, Van Calster B, Ghassemi M, Liu X, Reitsma JB, van Smeden M, Boulesteix AL, Camaradou JC, Celi LA, Denaxas S, Denniston AK, Glocker B, Golub RM, Harvey H, Heinze G, Hoffman MM, Kengne AP, Lam E, Lee N, Loder EW, Maier-Hein L, Mateen BA, McCradden MD, Oakden-Rayner L, Ordish J, Parnell R, Rose S, Singh K, Wynants L, Logullo P. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 16;385:e078378. doi: 10.1136/bmj-2023-078378.
- Benary M, Wang XD, Schmidt M, Soll D, Hilfenhaus G, Nassir M, Sigler C, Knodler M, Keller U, Beule D, Keilholz U, Leser U, Rieke DT. Leveraging Large Language Models for Decision Support in Personalized Oncology. JAMA Netw Open. 2023 Nov 1;6(11):e2343689. doi: 10.1001/jamanetworkopen.2023.43689.
- Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023 Jun;307(5):e230582. doi: 10.1148/radiol.230582. Epub 2023 May 16.
- Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Loffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. doi: 10.1038/s43856-023-00370-1.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021 Dec;27(12):2176-2182. doi: 10.1038/s41591-021-01595-0. Epub 2021 Dec 10.
- Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, Rajpurkar P. Foundation models for generalist medical artificial intelligence. Nature. 2023 Apr;616(7956):259-265. doi: 10.1038/s41586-023-05881-4. Epub 2023 Apr 12.
- Miaojiao S, Xia L, Xian Tao Z, Zhi Liang H, Sheng C, Songsong W. Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study. JMIR Med Inform. 2025 Jun 11;13:e70924. doi: 10.2196/70924.
- Jiao J, Zhou J, Li X, Xia M, Huang Y, Huang L, Wang N, Zhang X, Zhou S, Wang Y, Guo Y. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal. 2024 Aug;96:103202. doi: 10.1016/j.media.2024.103202. Epub 2024 May 15.
- Xiang H, Wang X, Xu M, Zhang Y, Zeng S, Li C, Liu L, Deng T, Tang G, Yan C, Ou J, Lin Q, He J, Sun P, Li A, Chen H, Heng PA, Lin X. Deep Learning-assisted Diagnosis of Breast Lesions on US Images: A Multivendor, Multicenter Study. Radiol Artif Intell. 2023 Jul 12;5(5):e220185. doi: 10.1148/ryai.220185. eCollection 2023 Sep.
- Kottlors J, Iuga AI, Bluethgen C, Bressem K, Kather JN, Moy L, Wald C, Wang W, Liu T, Ranschaert E, Dratsch T, Kleesiek J, Gertz RJ, Rajpurkar P, Bedayat A, Fink MA, Zeeck A, Chaudhari A, Alkasab T, Wu H, Nensa F, Wang B, Grosse Hokamp N, Laukamp KR, Persigehl T, Maintz D, Truhn D, Lennartz S. Guidelines for Reporting Studies on Large Language Models in Radiology: An International Delphi Expert Survey. Radiology. 2026 Feb;318(2):e250913. doi: 10.1148/radiol.250913.
Studienaufzeichnungsdaten
Haupttermine studieren
Studienbeginn (Tatsächlich)
Primärer Abschluss (Geschätzt)
Studienabschluss (Geschätzt)
Studienanmeldedaten
Zuerst eingereicht
Zuerst eingereicht, das die QC-Kriterien erfüllt hat
Zuerst gepostet (Tatsächlich)
Studienaufzeichnungsaktualisierungen
Letztes Update gepostet (Tatsächlich)
Letztes eingereichtes Update, das die QC-Kriterien erfüllt
Zuletzt verifiziert
Mehr Informationen
Begriffe im Zusammenhang mit dieser Studie
Schlüsselwörter
Zusätzliche relevante MeSH-Bedingungen
Andere Studien-ID-Nummern
- K10349
- 2024-I2M-CT-B-035 (Andere Zuschuss-/Finanzierungsnummer: CAMS Innovation Fund for Medical Sciences)
- I-26PJ0568 (Andere Kennung: Ethics Committee, Peking Union Medical College Hospital)
Plan für individuelle Teilnehmerdaten (IPD)
Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?
Beschreibung des IPD-Plans
IPD-Sharing-Zeitrahmen
IPD-Sharing-Zugriffskriterien
Art der unterstützenden IPD-Freigabeinformationen
- STUDIENPROTOKOLL
- SAFT
- ANALYTIC_CODE
Arzneimittel- und Geräteinformationen, Studienunterlagen
Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt
Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt
Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .
Klinische Studien zur Neoplasien der Brust
-
Xijing HospitalAktiv, nicht rekrutierendBrustkrebs | Brustkrebs (Triple Negative Breast Cancer (TNBC))China
-
Novartis PharmaceuticalsAbgeschlossenMetastasierter Brustkrebs (MBC) | Locally Advance Breast Cancer (LABC)Vereinigtes Königreich, Spanien
-
Shanghai Henlius BiotechNoch keine RekrutierungBrustkrebs (Triple Negative Breast Cancer (TNBC))China
-
BioNTech SESeventh Framework ProgrammeAbgeschlossenBrustkrebs (Triple Negative Breast Cancer (TNBC))Schweden, Deutschland
-
Filipa Lynce, MDAstraZeneca; Daiichi SankyoRekrutierungBrustkrebs | HER2-positiver Brustkrebs | Invasiver Brustkrebs | Entzündlicher Brustkrebs Stadium III | HER2 Low Breast AdenokarzinomVereinigte Staaten
-
John MascarenhasNational Cancer Institute (NCI); National Institutes of Health (NIH); Celgene... und andere MitarbeiterAbgeschlossenIDH2-Mutation | Accelerated/Blast-phase Myeloproliferative Neoplasm | Myelofibrose in der chronischen PhaseVereinigte Staaten, Kanada
-
Jessica Mezzanotte SharpeRekrutierungNicht-kleinzelligem Lungenkrebs | Klassisches Hodgkin-Lymphom | Plattenepithelkarzinom Mund | Melanom (Hautkrebs) | Brustkrebs (Triple Negative Breast Cancer (TNBC)) | Invasives Mammakarzinom | Nierenzellkarzinom (Nierenkrebs) | MSI-H/dMMR RektumkarzinomVereinigte Staaten
Klinische Studien zur Multimodale KI-Modell-Diagnostikbewertung
-
Jilan Adel yousefAbgeschlossenKörperhaltung; DefektÄgypten
-
Ankara Medipol UniversityAbgeschlossenTiefes Lernen | Zahnbelag (Diagnose)Truthahn
-
Hazem Yassin ClinicsAhmed I ElSayeghAnmeldung auf EinladungKeratokonus | Maschinelles Lernen | Refraktive Chirurgie | Augenheilkunde | Diagnostische Genauigkeit | Klinische Entscheidungsunterstützung | Künstliche IntelligenzÄgypten