Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Udarbejdelse af et benchmark til brystultralyd AI-tolkning og ydeevnevurdering af multimodal AI-modeller (BUST-AI Bench)

24. marts 2026 opdateret af: Qingli Zhu, Peking Union Medical College Hospital

Udarbejdelse af et standardiseret benchmark-evalueringssystem til intelligent brystultralydsbilledfortolkning og systematisk ydeevnevurdering af multimodal kunstig intelligens-modeller baseret på ACR BI-RADS v2025-kriterier

Dette single-center, retrospektive, observationsstudie har til formål at konstruere et standardiseret benchmark-evaluationssystem for intelligent brystultralydsbilledfortolkning og systematisk at vurdere den diagnostiske præstation af nuværende mainstream multimodal kunstig intelligens (AI)-modeller.

De-identificerede B-mode brystultralydsbilleder med bekræftede patologiske diagnoser vil blive indsamlet retrospektivt fra institutionens arkiv (2018-2025) og suppleret med billeder fra offentliggjorte åbne adgangsdatasæt. Ekspertradiologer med varierende erfaring vil uafhængigt annotere alle billeder i henhold til American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025-kriterier, herunder kirtelvævsammensætning, læsionskarakteristik (masse vs. ikke-masse læsion), morfologiske deskriptorer og endelig BI-RADS-klassifikation.

Baseline deep learning-modeller (CNN-baserede ResNet-50 og Transformer-baserede USFM) vil blive trænet for at etablere ydelsesbaselines og stratificere tilfælde efter diagnostisk vanskelighed gennem tværarhitekturkonsensus. Flere multimodale store sprogmodeller (MLLMs), inklusive både generelle og medicinske domænemodeller, vil derefter blive evalueret via standardiserede API-kald ved hjælp af BI-RADS-styrede chain-of-thought-prompts ved temperatur 0 for reproducerbarhed.

Primære endpoints inkluderer BI-RADS-klassifikationsnøjagtighed og diagnostisk AUC for benign-malign differentiering. Modellernes robusthed og sikkerhed vil blive vurderet gennem out-of-distribution-afvisningstest, temperaturstabilitetseksperimenter og tænkemåde-ablation-studier. Dette studie overholder FLAIR- og TRIPOD-LLM-rapporteringsretningslinjerne.

Studieoversigt

Detaljeret beskrivelse

Baggrund: Brystkræft er den mest udbredte ondartede svulst blandt kvinder på verdensplan. Ultralyd er en første-linjes screeningsmetode, især hos asiatiske befolkningsgrupper med tæt brystvæv, hvor mammografisk sensitivitet er begrænset. Dog er ultralydsfortolkning stærkt operatørafhængig, med betydelig variation mellem observatører i BI-RADS-klassifikation, især for kategorier 4A-4B læsioner. Multimodale store sprogmodeller (MLLM'er) er opstået som et lovende værktøj til medicinsk billedanalyse på grund af deres zero-shot diagnostiske evne, fortolkelig kæde-af-tænkning ræsonnement og struktureret rapportgenerering. Ikke desto mindre er der i øjeblikket ingen standardiseret benchmark til evaluering af AI-præstation i brystultralydsfortolkning.

Studiedesign: Cirka 1.380 brystultralydsbilleder vil blive kurateret (1.200 evalueringssæt + 150 out-of-distribution sikkerhedstestsæt + 30 prompt-udviklingssæt), omfattende tre diagnostiske kategorier: normalt bryst, godartede læsioner (BI-RADS 2-4B) og ondartede læsioner (BI-RADS 3-5). To junior radiologer (<5 års erfaring) og to senior radiologer (>15 år) vil uafhængigt annotere billeder pr. ACR BI-RADS v2025 med voldgift af en femte ekspert for uenige tilfælde.

Diagnostisk vanskelighed vil blive stratificeret i tre niveauer ved hjælp af tværarkitektur deep learning konsensus: Niveau 1 (ligetil, begge modeller korrekte), Niveau 2 (tvetydig, én korrekt/en forkert) og Niveau 3 (vanskelig, begge forkerte, med senior ekspert validering). MLLM'er vil blive evalueret på tværs af flere dimensioner: klassifikationsnøjagtighed, sensitivitet, specificitet, F1-score, AUC, Cohen's kappa overensstemmelse med ekspertkonsensus, forventet kalibreringsfejl (ECE), morfologisk funktionsbeskrivelsesnøjagtighed og kæde-af-tænkning ræsonnementkvalitet.

Sikkerhedsvurdering: (1) Out-of-distribution afvisningstest ved brug af 150 ikke-diagnostiske billeder (forringede billeder, ikke-bryst ultralyd, andre billedmodaliteter); (2) Temperaturstabilitetsforsøg forud for eksperimentet på tværs af parameterindstillinger; (3) Tænkemode ablation sammenligning af standard vs. kæde-af-tænkning ræsonnementtilstande. Alle eksperimenter bruger faste modelsnapshots, system fingeraftryk overvågning og komplet logning for reproducerbarhed.

Undersøgelsestype

Observationel

Tilmelding (Anslået)

1380

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiekontakt

Undersøgelse Kontakt Backup

Studiesteder

      • Beijing, Kina, 100730
        • Rekruttering
        • Peking Union Medical College Hospital
        • Kontakt:

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

  • Voksen
  • Ældre voksen

Tager imod sunde frivillige

Ja

Prøveudtagningsmetode

Ikke-sandsynlighedsprøve

Studiebefolkning

De-identifierede brystultralyds billeder fra voksne patienter, som blev undersøgt med brystultralyd på Peking Union Medical College Hospital mellem 2018 og 2025 med efterfølgende patologisk bekræftelse, suppleret med billeder fra offentliggjorte, etisk godkendte, åbent tilgængelige brystultralyds datasæt (f.eks. BUSI, BrEaST).

Beskrivelse

Inklusionskriterier:

  • B-mode brystultralyd gråtonebilleder fra institutionens PACS-database eller fra offentliggjorte åbne adgangs brystultralyd-datasæt med dokumenteret oprindelig institutionel etisk godkendelse
  • Billedkvalitet tilstrækkelig til klinisk diagnose med klar visualisering af interesseområdet
  • Patologisk diagnose bekræftet (for godartede og ondartede læsionsgrupper), eller normal bryststatus bekræftet af en senior radiolog med >15 års erfaring med brystultralyd (for normalgruppen)
  • Fuld de-identifikation med fjernelse af al personligt identificerbar information

Eksklusionskriterier:

  • Alvorligt forringet billedkvalitet, der forhindrer meningsfuld BI-RADS-vurdering
  • Duplikatbilleder fra samme patient (kun det mest repræsentative billede beholdt pr. læsion)
  • Billeder med resterende personligt identificerbar information efter de-identifikationsbehandling
  • Tilfælde med tvetydige, omstridte eller utilgængelige patologiske resultater
  • Ikke-B-mode ultralydbilleder, herunder elastografi, kontrastforstærket ultralyd og Doppler-billeddannelse

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Kohorter og interventioner

Gruppe / kohorte
Intervention / Behandling
Normal Bryst
Brystultralydbilleder, der viser normalt kirtelvæv på tværs af forskellige vævssammensætningstyper, uden identificerede fokale læsioner. Bekræftet af seniorradiolog gennemgang.
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API. Ingen patientkontakt eller klinisk beslutningstagning er involveret.
Godartet læsion
Brystultralydbilleder med patologisk bekræftede godartede læsioner (BI-RADS 2-4B), herunder fibroadenom, cyste, lipom, skleroserende adenose, intraduktalt papillom og udvalgte ikke-masse læsioner (NML).
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API. Ingen patientkontakt eller klinisk beslutningstagning er involveret.
Malign læsion
Brystultralydbilleder, der indeholder patologisk bekræftede maligne læsioner (BI-RADS 3-5), herunder invasiv duktalcarcinom, invasiv lobulært carcinom, mucinøst carcinom og udvalgte ikke-masse læsioner (NML).
Retrospektiv evaluering af anonymiserede brystultralydsbilleder ved hjælp af flere AI-systemer, inklusive baseline deep learning-modeller (ResNet-50, USFM) og multimodale store sprogmodeller, ved brug af standardiserede BI-RADS-styrede chain-of-thought-prompts via API. Ingen patientkontakt eller klinisk beslutningstagning er involveret.

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Diagnostisk nøjagtighed for patologisk diagnose
Tidsramme: Ved afslutningen af undersøgelsen, cirka 12 måneder
Sensitivitet, specificitet, positiv prædiktiv værdi (PPV), negativ prædiktiv værdi (NPV) og F1-score for AI-modeller til godartet-malign klassifikation, med histopatologisk diagnose som guldstandarden.
Ved afslutningen af undersøgelsen, cirka 12 måneder
BI-RADS Klassifikationsnøjagtighed
Tidsramme: Ved afslutning af undersøgelsen, cirka 12 måneder
Den samlede nøjagtighed af AI-modeller i tildeling af BI-RADS-kategorier (2, 3, 4A, 4B, 4C, 5) til brystultralydsbilleder, sammenlignet med ekspertkonsensusannotation som referencestandard.
Ved afslutning af undersøgelsen, cirka 12 måneder

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Overensstemmelse med ekspertkonsensus (Cohen's Kappa)
Tidsramme: Ved afslutning af undersøgelsen, cirka 12 måneder
Cohen's kappa-koefficient, der måler overensstemmelsen mellem hver AI-model's BI-RADS-klassifikation og ekspertkonsensusannotationen, rapporteret med 95% konfidensintervaller.
Ved afslutning af undersøgelsen, cirka 12 måneder
Rate for Afvisning uden for Distributionen
Tidsramme: Ved afslutningen af studiet, ca. 12 måneder
Andel af ikke-diagnostiske billeder (forringet kvalitet, ikke-brystultralyd, andre billeddannelsesmetoder) korrekt identificeret og afvist af AI-modeller, som vurderer domænesikkerhed.
Ved afslutningen af studiet, ca. 12 måneder
Sensitivitet, Specificitet, PPV, NPV og F1-score
Tidsramme: Ved afslutningen af undersøgelsen, cirka 12 måneder
Standard diagnostiske ydeevnemål for godartet-kræftsvulst klassificering, rapporteret for hver AI-model individuelt.
Ved afslutningen af undersøgelsen, cirka 12 måneder

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Efterforskere

  • Ledende efterforsker: Qingli Zhu, MD, Peking Union Medical College Hospital

Publikationer og nyttige links

Den person, der er ansvarlig for at indtaste oplysninger om undersøgelsen, leverer frivilligt disse publikationer. Disse kan handle om alt relateret til undersøgelsen.

Generelle publikationer

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

12. marts 2026

Primær færdiggørelse (Anslået)

1. december 2026

Studieafslutning (Anslået)

1. marts 2027

Datoer for studieregistrering

Først indsendt

24. marts 2026

Først indsendt, der opfyldte QC-kriterier

24. marts 2026

Først opslået (Faktiske)

30. marts 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

30. marts 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

24. marts 2026

Sidst verificeret

1. marts 2026

Mere information

Begreber relateret til denne undersøgelse

Andre undersøgelses-id-numre

  • K10349
  • 2024-I2M-CT-B-035 (Andet bevillings-/finansieringsnummer: CAMS Innovation Fund for Medical Sciences)
  • I-26PJ0568 (Anden identifikator: Ethics Committee, Peking Union Medical College Hospital)

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

JA

IPD-planbeskrivelse

Den de-identificerede referencevurderingsdatasæt, som inkluderer ekspertannoterede brystultralydsbilleder med tilhørende BI-RADS-læserapporter, er planlagt til offentlig frigivelse for at fremme akademisk reproducerbarhed og samarbejdsforskning.

IPD-delingstidsramme

Inden for 6 måneder efter primær publikation, tilgængelig på ubestemt tid

IPD-delingsadgangskriterier

Open access via en anerkendt datarepository (nærmere at fastsætte)

IPD-deling Understøttende informationstype

  • STUDY_PROTOCOL
  • SAP
  • ANALYTIC_CODE

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Brystneoplasmer

Kliniske forsøg med Multimodal AI-model diagnostisk evaluering

Abonner