Tato stránka byla automaticky přeložena a přesnost překladu není zaručena. Podívejte se prosím na anglická verze pro zdrojový text.

Vytvoření benchmarku pro interpretaci ultrazvuku prsu pomocí AI a hodnocení výkonnosti multimodálních modelů AI (BUST-AI Bench)

24. března 2026 aktualizováno: Qingli Zhu, Peking Union Medical College Hospital

Konstrukce standardizovaného benchmarkového hodnoticího systému pro inteligentní interpretaci ultrazvukových snímků prsu a systematické hodnocení výkonnosti multimodálních modelů umělé inteligence založené na kritériích ACR BI-RADS v2025

Tato jednocentrová, retrospektivní, observační studie si klade za cíl vytvořit standardizovaný systém benchmarkového hodnocení pro inteligentní interpretaci ultrazvukových snímků prsu a systematicky posoudit diagnostickou výkonnost současných hlavních multimodálních modelů umělé inteligence (AI).

De-identifikované ultrazvukové snímky prsu v B-režimu s potvrzenými patologickými diagnózami budou retrospektivně shromážděny z institucionálního archivu (2018–2025) a doplněny snímky z publikovaných otevřených datových sad. Expertní radiologové s různou úrovní zkušeností nezávisle označí všechny snímky podle kritérií American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) v2025, včetně složení žlázové tkáně, charakterizace lézí (hmota vs. nehmotná léze), morfologických deskriptorů a konečné klasifikace BI-RADS.

Základní modely hlubokého učení (na bázi CNN ResNet-50 a Transformer-based USFM) budou natrénovány, aby stanovily výkonnostní výchozí hodnoty a stratifikovaly případy podle diagnostické obtížnosti prostřednictvím konsenzu napříč architekturami. Následně bude vyhodnoceno několik multimodálních velkých jazykových modelů (MLLM), včetně obecně určených i medicínských modelů, prostřednictvím standardizovaných API volání s využitím řetězce myšlenek řízeného BI-RADS při teplotě 0 pro reprodukovatelnost.

Primární cílové parametry zahrnují přesnost klasifikace BI-RADS a diagnostickou AUC pro rozlišení benigního a maligního. Robustnost a bezpečnost modelu budou hodnoceny prostřednictvím testů odmítání mimo distribuci, experimentů s teplotní stabilitou a studií ablace režimů myšlení. Tato studie se řídí směrnicemi pro podávání zpráv FLAIR a TRIPOD-LLM.

Přehled studie

Detailní popis

Pozadí: Karcinom prsu je celosvětově nejčastější malignita u žen. Ultrazvuk je screeningová metoda první volby, zejména u asijských populací s hustou tkání prsu, kde je senzitivita mamografie omezená. Interpretace ultrazvuku je však vysoce závislá na operátorovi, s významnou variabilitou mezi pozorovateli v klasifikaci BI-RADS, zejména u lézí kategorie 4A-4B. Multimodální velké jazykové modely (MLLM) se ukázaly jako slibný nástroj pro analýzu lékařských obrazů díky jejich schopnosti nulového diagnostického výkonu, interpretovatelného řetězcového uvažování a strukturovaného generování zpráv. Přesto v současné době neexistuje standardizovaný benchmark pro hodnocení výkonu umělé inteligence při interpretaci ultrazvuku prsu.

Design studie: Bude sestaveno přibližně 1 380 ultrazvukových snímků prsu (1 200 snímků pro evaluační soubor + 150 snímků pro bezpečnostní test mimo distribuci + 30 snímků pro vývoj promptů), zahrnujících tři diagnostické kategorie: normální prs, benigní léze (BI-RADS 2-4B) a maligní léze (BI-RADS 3-5). Dva mladší radiologové (<5 let zkušeností) a dva starší radiologové (>15 let) nezávisle anotují snímky podle ACR BI-RADS v2025 s arbitráží pátého experta pro nesouhlasné případy.

Diagnostická obtížnost bude stratifikována do tří úrovní pomocí konsenzu hlubokého učení napříč architekturami: Úroveň 1 (přímočará, oba modely správné), Úroveň 2 (nejednoznačná, jeden správný/jeden nesprávný) a Úroveň 3 (obtížná, oba nesprávné, s validací seniorního experta). MLLM budou hodnoceny v mnoha dimenzích: přesnost klasifikace, senzitivita, specificita, F1 skóre, AUC, Cohenovo kappa shoda s expertním konsenzem, očekávaná chyba kalibrace (ECE), přesnost popisu morfologických vlastností a kvalita řetězcového uvažování.

Bezpečnostní hodnocení: (1) Test odmítnutí mimo distribuci s použitím 150 nediagnostických snímků (zhoršené snímky, neultrazvuk prsu, jiné zobrazovací modality); (2) Pre-experimentální teplotní stabilita napříč nastavením parametrů; (3) Ablace režimu myšlení porovnávající standardní vs. režimy řetězcového uvažování. Všechny experimenty používají pevné snapshoty modelů, monitorování systémových otisků a kompletní logování pro reprodukovatelnost.

Typ studie

Pozorovací

Zápis (Odhadovaný)

1380

Kontakty a umístění

Tato část poskytuje kontaktní údaje pro ty, kteří studii provádějí, a informace o tom, kde se tato studie provádí.

Studijní kontakt

  • Jméno: Qingli Zhu, MD
  • Telefonní číslo: +86 13621376699
  • E-mail: zqlpumch@126.com

Studijní záloha kontaktů

  • Jméno: Yinglan Wu, MD
  • Telefonní číslo: +86 15626121076
  • E-mail: wuylan7@gmail.com

Studijní místa

      • Beijing, Čína, 100730
        • Nábor
        • Peking Union Medical College Hospital
        • Kontakt:

Kritéria účasti

Výzkumníci hledají lidi, kteří odpovídají určitému popisu, kterému se říká kritéria způsobilosti. Některé příklady těchto kritérií jsou celkový zdravotní stav osoby nebo předchozí léčba.

Kritéria způsobilosti

Věk způsobilý ke studiu

  • Dospělý
  • Starší dospělý

Přijímá zdravé dobrovolníky

Ano

Metoda odběru vzorků

Vzorek nepravděpodobnosti

Studijní populace

De-identifikované ultrazvukové snímky prsou od dospělých pacientek, které podstoupily ultrazvukové vyšetření prsou v Nemocnici Peking Union Medical College mezi lety 2018 a 2025 s následným patologickým potvrzením, doplněné o snímky z publikovaných, eticky schválených, volně přístupných datových sad ultrazvuku prsou (např. BUSI, BrEaST).

Popis

Kritéria pro zařazení:

  • B-režimové prsní ultrazvukové snímky ve stupních šedi z institucionální databáze PACS nebo z publikovaných otevřených datových sad prsních ultrazvuků s dokumentovaným původním institucionálním etickým schválením
  • Kvalita snímku dostatečná pro klinickou diagnózu s jasnou vizualizací oblasti zájmu
  • Patologická diagnóza potvrzena (pro skupiny benigních a maligních lézí) nebo normální stav prsu potvrzen seniorním radiologem s více než 15 lety zkušeností s prsním ultrazvukem (pro normální skupinu)
  • Kompletní anonymizace s odstraněním všech osobně identifikovatelných údajů

Kritéria pro vyloučení:

  • Silně degradovaná kvalita snímku znemožňující smysluplné hodnocení BI-RADS
  • Duplicitní snímky od stejného pacienta (pouze nejreprezentativnější snímek zachován pro každou lézi)
  • Snímky se zbytkovými osobně identifikovatelnými údaji po procesu anonymizace
  • Případy s nejednoznačnými, spornými nebo nedostupnými patologickými výsledky
  • Ne B-režimové ultrazvukové snímky, včetně elastografie, kontrastem zesíleného ultrazvuku a Dopplerova zobrazení

Studijní plán

Tato část poskytuje podrobnosti o studijním plánu, včetně toho, jak je studie navržena a co studie měří.

Jak je studie koncipována?

Detaily designu

Kohorty a intervence

Skupina / kohorta
Intervence / Léčba
Normální prsní tkáň
Mamografické ultrazvukové snímky ukazující normální žlázovou tkáň napříč různými typy složení tkáně, bez identifikovaných fokálních lézí. Potvrzeno přezkoumáním seniorním radiologem.
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API. Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.
Benigní léze
Mamární ultrazvukové snímky obsahující patologicky potvrzené benigní léze (BI-RADS 2-4B), včetně fibroadenomu, cysty, lipomu, sklerotizující adenózy, intraduktálního papillomu a vybraných ložisek bez hmoty (NML).
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API. Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.
Maligní léze
Ultrazvukové snímky prsu obsahující patologicky potvrzené maligní léze (BI-RADS 3-5), včetně invazivního duktálního karcinomu, invazivního lobulárního karcinomu, mucinózního karcinomu a vybraných nehmotných lézí (NML).
Retrospektivní hodnocení anonymizovaných snímků ultrazvuku prsu více systémy umělé inteligence, včetně základních modelů hlubokého učení (ResNet-50, USFM) a multimodálních velkých jazykových modelů, s využitím standardizovaných BI-RADS-řízených řetězců myšlenkových podnětů prostřednictvím API. Nedochází ke kontaktu s pacienty ani k klinickému rozhodování.

Co je měření studie?

Primární výstupní opatření

Měření výsledku
Popis opatření
Časové okno
Diagnostická přesnost pro patologickou diagnózu
Časové okno: Po dokončení studie, přibližně 12 měsíců
Citlivost, specificita, pozitivní prediktivní hodnota (PPV), negativní prediktivní hodnota (NPV) a F1 skóre modelů AI pro klasifikaci benigní-maligní, s histopatologickou diagnózou jako zlatým standardem.
Po dokončení studie, přibližně 12 měsíců
Přesnost klasifikace BI-RADS
Časové okno: Po dokončení studie, přibližně 12 měsíců
Celková přesnost modelů umělé inteligence při přiřazování kategorií BI-RADS (2, 3, 4A, 4B, 4C, 5) k ultrazvukovým snímkům prsu, ve srovnání s odborným konsenzuálním označením jako referenčním standardem.
Po dokončení studie, přibližně 12 měsíců

Sekundární výstupní opatření

Měření výsledku
Popis opatření
Časové okno
Shoda s odborným konsenzem (Cohenovo kappa)
Časové okno: Na konci studie, přibližně 12 měsíců
Cohenův kappa koeficient měřící shodu mezi klasifikací BI-RADS každého AI modelu a expertní konsenzuální anotací, uvedený s 95% intervaly spolehlivosti.
Na konci studie, přibližně 12 měsíců
Míra odmítnutí mimo distribuci
Časové okno: Po dokončení studie, přibližně 12 měsíců
Podíl nediagnostických snímků (snížená kvalita, ultrazvuk jiných částí těla než prsu, jiné zobrazovací modality) správně identifikovaných a odmítnutých umělou inteligencí, posuzující bezpečnost domény.
Po dokončení studie, přibližně 12 měsíců
Senzitivita, Specificita, PPV, NPV a F1 Skóre
Časové okno: Na konci studie, přibližně 12 měsíců
Standardní diagnostické výkonnostní metriky pro klasifikaci benigní-maligní, hlášené pro každý model AI jednotlivě.
Na konci studie, přibližně 12 měsíců

Spolupracovníci a vyšetřovatelé

Zde najdete lidi a organizace zapojené do této studie.

Vyšetřovatelé

  • Vrchní vyšetřovatel: Qingli Zhu, MD, Peking Union Medical College Hospital

Publikace a užitečné odkazy

Osoba odpovědná za zadávání informací o studiu tyto publikace poskytuje dobrovolně. Mohou se týkat čehokoli, co souvisí se studiem.

Obecné publikace

Termíny studijních záznamů

Tato data sledují průběh záznamů studie a předkládání souhrnných výsledků na ClinicalTrials.gov. Záznamy ze studií a hlášené výsledky jsou před zveřejněním na veřejné webové stránce přezkoumány Národní lékařskou knihovnou (NLM), aby se ujistily, že splňují specifické standardy kontroly kvality.

Hlavní termíny studia

Začátek studia (Aktuální)

12. března 2026

Primární dokončení (Odhadovaný)

1. prosince 2026

Dokončení studie (Odhadovaný)

1. března 2027

Termíny zápisu do studia

První předloženo

24. března 2026

První předloženo, které splnilo kritéria kontroly kvality

24. března 2026

První zveřejněno (Aktuální)

30. března 2026

Aktualizace studijních záznamů

Poslední zveřejněná aktualizace (Aktuální)

30. března 2026

Odeslaná poslední aktualizace, která splnila kritéria kontroly kvality

24. března 2026

Naposledy ověřeno

1. března 2026

Více informací

Termíny související s touto studií

Další identifikační čísla studie

  • K10349
  • 2024-I2M-CT-B-035 (Jiné číslo grantu/financování: CAMS Innovation Fund for Medical Sciences)
  • I-26PJ0568 (Jiný identifikátor: Ethics Committee, Peking Union Medical College Hospital)

Plán pro data jednotlivých účastníků (IPD)

Plánujete sdílet data jednotlivých účastníků (IPD)?

ANO

Popis plánu IPD

Deidentifikovaný referenční hodnotící dataset, zahrnující odborně anotované mamografické ultrazvukové snímky s párovými zprávami o čtení BI-RADS, je plánován k veřejnému zveřejnění za účelem podpory akademické reprodukovatelnosti a spolupráce ve výzkumu.

Časový rámec sdílení IPD

Do 6 měsíců od primární publikace, k dispozici neomezeně

Kritéria přístupu pro sdílení IPD

Otevřený přístup prostřednictvím uznávaného datového úložiště (bude určeno)

Typ podpůrných informací pro sdílení IPD

  • PROTOKOL STUDY
  • MÍZA
  • ANALYTIC_CODE

Informace o lécích a zařízeních, studijní dokumenty

Studuje lékový produkt regulovaný americkým FDA

Ne

Studuje produkt zařízení regulovaný americkým úřadem FDA

Ne

Tyto informace byly beze změn načteny přímo z webu clinicaltrials.gov. Máte-li jakékoli požadavky na změnu, odstranění nebo aktualizaci podrobností studie, kontaktujte prosím register@clinicaltrials.gov. Jakmile bude změna implementována na clinicaltrials.gov, bude automaticky aktualizována i na našem webu .

Klinické studie na Novotvary prsu

Klinické studie na Víceúčelové diagnostické hodnocení modelu umělé inteligence

Předplatit