Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Aufbau eines Benchmarks für die KI-Interpretation von Brustultraschall und Leistungsbewertung multimodaler KI-Modelle (BUST-AI Bench)

24. März 2026 aktualisiert von: Qingli Zhu, Peking Union Medical College Hospital

Konstruktion eines standardisierten Benchmark-Bewertungssystems für die intelligente Brustultraschallbildinterpretation und systematische Leistungsbewertung multimodaler künstlicher Intelligenz-Modelle basierend auf ACR BI-RADS v2025-Kriterien

Diese monozentrische, retrospektive, beobachtende Studie zielt darauf ab, ein standardisiertes Benchmark-Evaluierungssystem für die intelligente Interpretation von Brustultraschallbildern zu entwickeln und die diagnostische Leistung aktueller multimodaler künstlicher Intelligenz (KI)-Modelle systematisch zu bewerten.

Anonymisierte B-Mode-Brustultraschallbilder mit bestätigten pathologischen Diagnosen werden retrospektiv aus dem institutionellen Archiv (2018-2025) gesammelt und durch Bilder aus veröffentlichten, frei zugänglichen Datensätzen ergänzt. Expertentechnische Radiologen mit unterschiedlichen Erfahrungsniveaus werden alle Bilder unabhängig gemäß den Kriterien des American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025 annotieren, einschließlich der Zusammensetzung des Drüsengewebes, der Läsionscharakterisierung (Masse vs. Nicht-Massenläsion), morphologischer Deskriptoren und der endgültigen BI-RADS-Klassifizierung.

Baseline Deep-Learning-Modelle (CNN-basiertes ResNet-50 und Transformer-basiertes USFM) werden trainiert, um Leistungsbaselines zu etablieren und Fälle durch konsensuelle Bewertung über Architekturen hinweg nach diagnostischer Schwierigkeit zu stratifizieren. Mehrere multimodale große Sprachmodelle (MLLMs), einschließlich allgemeiner und medizinischer Domänenmodelle, werden dann über standardisierte API-Aufrufe mit BI-RADS-gesteuerten Chain-of-Thought-Prompts bei Temperatur 0 für Reproduzierbarkeit evaluiert.

Primäre Endpunkte umfassen die Genauigkeit der BI-RADS-Klassifizierung und die diagnostische AUC für die Unterscheidung zwischen benignen und malignen Befunden. Die Robustheit und Sicherheit der Modelle wird durch Out-of-Distribution-Rejection-Tests, Temperaturstabilitätsexperimente und Thinking-Mode-Ablationsstudien bewertet. Diese Studie hält sich an die FLAIR- und TRIPOD-LLM-Berichtsrichtlinien.

Studienübersicht

Detaillierte Beschreibung

Hintergrund: Brustkrebs ist die häufigste bösartige Erkrankung bei Frauen weltweit. Ultraschall ist eine Erstuntersuchungsmodalität, insbesondere bei asiatischen Bevölkerungsgruppen mit dichtem Brustgewebe, bei denen die mammografische Sensitivität eingeschränkt ist. Die Ultraschallinterpretation ist jedoch stark operatorabhängig, mit erheblicher Inter-Observer-Variabilität bei der BI-RADS-Klassifikation, insbesondere für Läsionen der Kategorie 4A-4B. Multimodale Large Language Models (MLLMs) haben sich aufgrund ihrer Zero-Shot-Diagnosefähigkeit, interpretierbaren Chain-of-Thought-Begründung und strukturierten Berichterstellung als vielversprechendes Werkzeug für die medizinische Bildanalyse erwiesen. Gleichzeitig gibt es derzeit keinen standardisierten Benchmark zur Bewertung der KI-Leistung bei der Brustultraschallinterpretation.

Studiendesign: Es werden etwa 1.380 Brustultraschallbilder kuratiert (1.200 Bewertungssatz + 150 Out-of-Distribution-Sicherheitstestsatz + 30 Prompt-Entwicklungssatz), die drei diagnostische Kategorien umfassen: normale Brust, gutartige Läsionen (BI-RADS 2-4B) und bösartige Läsionen (BI-RADS 3-5). Zwei Nachwuchsradiologen (<5 Jahre Erfahrung) und zwei erfahrene Radiologen (>15 Jahre) werden die Bilder unabhängig gemäß ACR BI-RADS v2025 annotieren, wobei ein fünfter Experte bei widersprüchlichen Fällen schlichtet.

Die diagnostische Schwierigkeit wird mithilfe eines architekturübergreifenden Deep-Learning-Konsenses in drei Stufen unterteilt: Stufe 1 (einfach, beide Modelle korrekt), Stufe 2 (uneindeutig, eines korrekt/eines inkorrekt) und Stufe 3 (schwierig, beide inkorrekt, mit Validierung durch erfahrene Experten). MLLMs werden in mehreren Dimensionen bewertet: Klassifikationsgenauigkeit, Sensitivität, Spezifität, F1-Score, AUC, Cohen's Kappa-Übereinstimmung mit Expertenkonsens, erwarteter Kalibrierungsfehler (ECE), Genauigkeit der morphologischen Merkmalsbeschreibung und Qualität der Chain-of-Thought-Begründung.

Sicherheitsbewertung: (1) Out-of-Distribution-Ablehnungstest mit 150 nicht-diagnostischen Bildern (qualitätsgeminderte Bilder, Nicht-Brustultraschall, andere Bildgebungsmodalitäten); (2) Temperaturstabilitäts-Vorexperiment über verschiedene Parametereinstellungen; (3) Thinking-Mode-Ablation mit Vergleich von Standard- vs. Chain-of-Thought-Begründungsmodi. Alle Experimente verwenden feste Model-Snapshots, System-Fingerprint-Überwachung und vollständige Protokollierung für Reproduzierbarkeit.

Studientyp

Beobachtungs

Einschreibung (Geschätzt)

1380

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienkontakt

Studieren Sie die Kontaktsicherung

Studienorte

      • Beijing, China, 100730
        • Rekrutierung
        • Peking Union Medical College Hospital
        • Kontakt:

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

  • Erwachsene
  • Älterer Erwachsener

Akzeptiert gesunde Freiwillige

Ja

Probenahmeverfahren

Nicht-Wahrscheinlichkeitsprobe

Studienpopulation

Anonymisierte Brustultraschallbilder von erwachsenen Patientinnen, die zwischen 2018 und 2025 am Peking Union Medical College Hospital eine Brustultraschalluntersuchung mit anschließender pathologischer Bestätigung erhielten, ergänzt durch Bilder aus veröffentlichten, ethisch genehmigten, frei zugänglichen Brustultraschall-Datensätzen (z.B. BUSI, BrEaST).

Beschreibung

Einschlusskriterien:

  • B-Modus-Brustultraschall-Graustufenbilder aus der institutionellen PACS-Datenbank oder aus veröffentlichten, frei zugänglichen Brustultraschall-Datensätzen mit dokumentierter ursprünglicher institutioneller Ethikgenehmigung
  • Bildqualität ausreichend für die klinische Diagnose mit klarer Darstellung des interessierenden Bereichs
  • Pathologische Diagnose bestätigt (für gutartige und bösartige Läsionsgruppen) oder normaler Bruststatus bestätigt durch einen erfahrenen Radiologen mit >15 Jahren Brustultraschall-Erfahrung (für die Normalgruppe)
  • Vollständige Anonymisierung mit Entfernung aller personenbezogenen Informationen

Ausschlusskriterien:

  • Stark beeinträchtigte Bildqualität, die eine aussagekräftige BI-RADS-Beurteilung unmöglich macht
  • Doppelte Bilder desselben Patienten (nur das repräsentativste Bild pro Läsion beibehalten)
  • Bilder mit verbleibenden personenbezogenen Informationen nach der Anonymisierungsverarbeitung
  • Fälle mit mehrdeutigen, umstrittenen oder nicht verfügbaren pathologischen Ergebnissen
  • Nicht-B-Modus-Ultraschallbilder, einschließlich Elastographie, kontrastmittelgestützter Ultraschall und Doppler-Bildgebung

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

Kohorten und Interventionen

Gruppe / Kohorte
Intervention / Behandlung
Normale Brust
Brustultraschallbilder zeigen normales Drüsengewebe bei verschiedenen Gewebezusammensetzungen, ohne dass fokale Läsionen identifiziert wurden. Bestätigt durch Überprüfung eines leitenden Radiologen.
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API. Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.
Gutartige Läsion
Brustultraschallbilder mit pathologisch bestätigten benignen Läsionen (BI-RADS 2-4B), einschließlich Fibroadenom, Zyste, Lipom, sklerosierende Adenose, intraduktales Papillom und ausgewählte Nicht-Massen-Läsionen (NML).
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API. Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.
Maligne Läsion
Brustultraschallbilder mit pathologisch bestätigten malignen Läsionen (BI-RADS 3-5), einschließlich invasivem duktalen Karzinom, invasivem lobulärem Karzinom, muzinösem Karzinom und ausgewählten Nicht-Masse-Läsionen (NML).
Retrospektive Auswertung von anonymisierten Brustultraschallbildern durch mehrere KI-Systeme, einschließlich grundlegender Deep-Learning-Modelle (ResNet-50, USFM) und multimodaler großer Sprachmodelle, unter Verwendung standardisierter, BI-RADS-gesteuerter Chain-of-Thought-Prompts über eine API. Kein Patientenkontakt oder klinische Entscheidungsfindung ist involviert.

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Diagnostische Genauigkeit für die pathologische Diagnose
Zeitfenster: Am Ende der Studie, nach etwa 12 Monaten
Sensitivität, Spezifität, positiver prädiktiver Wert (PPV), negativer prädiktiver Wert (NPV) und F1-Score von KI-Modellen für die Benigne-Maligne-Klassifikation mit histopathologischer Diagnose als Goldstandard.
Am Ende der Studie, nach etwa 12 Monaten
BI-RADS-Klassifikationsgenauigkeit
Zeitfenster: Am Ende der Studie, ungefähr 12 Monate
Gesamtgenauigkeit von KI-Modellen bei der Zuordnung von BI-RADS-Kategorien (2, 3, 4A, 4B, 4C, 5) zu Brustultraschallbildern, verglichen mit Expertenkonsensannotation als Referenzstandard.
Am Ende der Studie, ungefähr 12 Monate

Sekundäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Übereinstimmung mit Expertenkonsens (Cohens Kappa)
Zeitfenster: Am Ende der Studie, etwa 12 Monate
Cohens Kappa-Koeffizient, der die Übereinstimmung zwischen der BI-RADS-Klassifikation jedes KI-Modells und der Expertenkonsens-Annotation misst, berichtet mit 95%-Konfidenzintervallen.
Am Ende der Studie, etwa 12 Monate
Out-of-Distribution-Ablehnungsrate
Zeitfenster: Bei Studienabschluss, etwa 12 Monate
Anteil der nicht-diagnostischen Bilder (qualitativ beeinträchtigt, keine Brustultraschallaufnahmen, andere Bildgebungsmodalitäten), die von KI-Modellen korrekt identifiziert und abgelehnt wurden, zur Bewertung der Domänensicherheit.
Bei Studienabschluss, etwa 12 Monate
Sensitivität, Spezifität, PPV, NPV und F1-Score
Zeitfenster: Nach Studienabschluss, etwa 12 Monate
Standarddiagnostische Leistungsmetriken für die Benigne-Maligne-Klassifikation, individuell für jedes KI-Modell berichtet.
Nach Studienabschluss, etwa 12 Monate

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Ermittler

  • Hauptermittler: Qingli Zhu, MD, Peking Union Medical College Hospital

Publikationen und hilfreiche Links

Die Bereitstellung dieser Publikationen erfolgt freiwillig durch die für die Eingabe von Informationen über die Studie verantwortliche Person. Diese können sich auf alles beziehen, was mit dem Studium zu tun hat.

Allgemeine Veröffentlichungen

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Tatsächlich)

12. März 2026

Primärer Abschluss (Geschätzt)

1. Dezember 2026

Studienabschluss (Geschätzt)

1. März 2027

Studienanmeldedaten

Zuerst eingereicht

24. März 2026

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

24. März 2026

Zuerst gepostet (Tatsächlich)

30. März 2026

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

30. März 2026

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

24. März 2026

Zuletzt verifiziert

1. März 2026

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Andere Studien-ID-Nummern

  • K10349
  • 2024-I2M-CT-B-035 (Andere Zuschuss-/Finanzierungsnummer: CAMS Innovation Fund for Medical Sciences)
  • I-26PJ0568 (Andere Kennung: Ethics Committee, Peking Union Medical College Hospital)

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

JA

Beschreibung des IPD-Plans

Der anonymisierte Benchmark-Evaluierungsdatensatz, einschließlich von Experten annotierter Brustultraschallbilder mit gepaarten BI-RADS-Lesebefunden, ist für eine öffentliche Veröffentlichung geplant, um die akademische Reproduzierbarkeit und die kollaborative Forschung zu fördern.

IPD-Sharing-Zeitrahmen

Innerhalb von 6 Monaten nach der Erstveröffentlichung, unbegrenzt verfügbar

IPD-Sharing-Zugriffskriterien

Open Access über ein anerkanntes Datenrepository (zu bestimmen)

Art der unterstützenden IPD-Freigabeinformationen

  • STUDIENPROTOKOLL
  • SAFT
  • ANALYTIC_CODE

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur Neoplasien der Brust

Klinische Studien zur Multimodale KI-Modell-Diagnostikbewertung

Abonnieren