- ICH GCP
- Registro degli studi clinici negli Stati Uniti
- Sperimentazione clinica NCT07500428
Costruzione di un Benchmark per l'Interpretazione AI degli Ultrasuoni Mammari e Valutazione delle Prestazioni dei Modelli AI Multimodali (BUST-AI Bench)
Costruzione di un Sistema di Valutazione Benchmark Standardizzato per l'Interpretazione Intelligente delle Immagini Ecografiche Mammarie e Valutazione Sistematica delle Prestazioni dei Modelli di Intelligenza Artificiale Multimodale Basati sui Criteri ACR BI-RADS v2025
Questo studio osservazionale retrospettivo monocentrico mira a costruire un sistema di valutazione standardizzato per l'interpretazione intelligente delle immagini ecografiche mammarie e a valutare sistematicamente le prestazioni diagnostiche degli attuali modelli di intelligenza artificiale (AI) multimodale principali.
Immagini ecografiche mammarie in modalità B deidentificate con diagnosi patologiche confermate saranno raccolte retrospettivamente dall'archivio istituzionale (2018-2025) e integrate con immagini provenienti da dataset open-access pubblicati. Radiologi esperti con diversi livelli di esperienza annoteranno indipendentemente tutte le immagini secondo i criteri del Breast Imaging Reporting and Data System (BI-RADS) v2025 dell'American College of Radiology (ACR), inclusa la composizione del tessuto ghiandolare, la caratterizzazione delle lesioni (massa vs. lesione non-massa), i descrittori morfologici e la classificazione BI-RADS finale.
I modelli di deep learning di base (ResNet-50 basato su CNN e USFM basato su Transformer) saranno addestrati per stabilire le prestazioni di riferimento e stratificare i casi per difficoltà diagnostica attraverso un consenso cross-architettura. Diversi modelli linguistici multimodali di grandi dimensioni (MLLM), inclusi sia modelli generici che specifici per il dominio medico, saranno quindi valutati tramite chiamate API standardizzate utilizzando prompt a catena di pensiero guidati da BI-RADS a temperatura 0 per la riproducibilità.
Gli endpoint primari includono l'accuratezza della classificazione BI-RADS e l'AUC diagnostica per la differenziazione benigno-maligna. La robustezza e la sicurezza del modello saranno valutate attraverso test di rifiuto fuori distribuzione, esperimenti di stabilità della temperatura e studi di ablazione della modalità di pensiero. Questo studio aderisce alle linee guida di reporting FLAIR e TRIPOD-LLM.
Panoramica dello studio
Stato
Condizioni
Intervento / Trattamento
Descrizione dettagliata
Contesto: Il cancro al seno è la neoplasia maligna più diffusa tra le donne in tutto il mondo. L'ecografia è una modalità di screening di prima linea, in particolare nelle popolazioni asiatiche con tessuto mammario denso dove la sensibilità mammografica è limitata. Tuttavia, l'interpretazione dell'ecografia è fortemente dipendente dall'operatore, con una sostanziale variabilità inter-osservatore nella classificazione BI-RADS, specialmente per le lesioni di categoria 4A-4B. I modelli linguistici multimodali di grandi dimensioni (MLLM) sono emersi come uno strumento promettente per l'analisi delle immagini mediche grazie alla loro capacità diagnostica zero-shot, al ragionamento a catena del pensiero interpretabile e alla generazione di rapporti strutturati. Tuttavia, attualmente non esiste un benchmark standardizzato per valutare le prestazioni dell'IA nell'interpretazione dell'ecografia mammaria.
Disegno dello studio: Verranno curate circa 1.380 immagini ecografiche del seno (1.200 set di valutazione + 150 set di test di sicurezza fuori distribuzione + 30 set di sviluppo dei prompt), comprendenti tre categorie diagnostiche: seno normale, lesioni benigne (BI-RADS 2-4B) e lesioni maligne (BI-RADS 3-5). Due radiologi junior (<5 anni di esperienza) e due radiologi senior (>15 anni) annoteranno indipendentemente le immagini secondo ACR BI-RADS v2025, con arbitraggio di un quinto esperto per i casi discordanti.
La difficoltà diagnostica sarà stratificata in tre livelli utilizzando il consenso dell'apprendimento profondo cross-architettura: Livello 1 (semplice, entrambi i modelli corretti), Livello 2 (equivoco, uno corretto/uno errato) e Livello 3 (difficile, entrambi errati, con validazione di esperti senior). Gli MLLM saranno valutati su più dimensioni: accuratezza di classificazione, sensibilità, specificità, punteggio F1, AUC, accordo di kappa di Cohen con il consenso degli esperti, errore di calibrazione atteso (ECE), accuratezza nella descrizione delle caratteristiche morfologiche e qualità del ragionamento a catena del pensiero.
Valutazione della sicurezza: (1) Test di rifiuto fuori distribuzione utilizzando 150 immagini non diagnostiche (immagini degradate, ecografie non mammarie, altre modalità di imaging); (2) Pre-esperimento di stabilità della temperatura su diverse impostazioni dei parametri; (3) Ablazione della modalità di pensiero confrontando le modalità di ragionamento standard e a catena del pensiero. Tutti gli esperimenti utilizzano snapshot di modelli fissi, monitoraggio dell'impronta digitale del sistema e registrazione completa per la riproducibilità.
Tipo di studio
Iscrizione (Stimato)
Contatti e Sedi
Contatto studio
- Nome: Qingli Zhu, MD
- Numero di telefono: +86 13621376699
- Email: zqlpumch@126.com
Backup dei contatti dello studio
- Nome: Yinglan Wu, MD
- Numero di telefono: +86 15626121076
- Email: wuylan7@gmail.com
Luoghi di studio
-
-
-
Beijing, Cina, 100730
- Reclutamento
- Peking Union Medical College Hospital
-
Contatto:
- Qingli Zhu, MD
- Numero di telefono: +86 13621376699
- Email: zqlpumch@126.com
-
-
Criteri di partecipazione
Criteri di ammissibilità
Età idonea allo studio
- Adulto
- Adulto più anziano
Accetta volontari sani
Metodo di campionamento
Popolazione di studio
Descrizione
Criteri di inclusione:
- Immagini ecografiche mammarie in scala di grigi in modalità B provenienti dal database PACS istituzionale o da dataset ecografici mammari open-access pubblicati con approvazione etica istituzionale originale documentata
- Qualità dell'immagine adeguata per la diagnosi clinica con visualizzazione chiara della regione di interesse
- Diagnosi patologica confermata (per i gruppi di lesioni benigne e maligne), o stato mammario normale confermato da un radiologo senior con >15 anni di esperienza in ecografia mammaria (per il gruppo normale)
- De-identificazione completa con rimozione di tutte le informazioni personali identificabili
Criteri di esclusione:
- Qualità dell'immagine gravemente degradata che impedisce una valutazione BI-RADS significativa
- Immagini duplicate dello stesso paziente (viene conservata solo l'immagine più rappresentativa per lesione)
- Immagini con informazioni personali identificabili residue dopo l'elaborazione di de-identificazione
- Casi con risultati patologici ambigui, controversi o non disponibili
- Immagini ecografiche non in modalità B, inclusa elastografia, ecografia con mezzo di contrasto e imaging Doppler
Piano di studio
Come è strutturato lo studio?
Dettagli di progettazione
Coorti e interventi
Gruppo / Coorte |
Intervento / Trattamento |
|---|---|
|
Mammella Normale
Immagini ecografiche della mammella che mostrano tessuto ghiandolare normale in diversi tipi di composizione tissutale, senza lesioni focali identificate.
Confermato da revisione del radiologo senior.
|
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API.
Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.
|
|
Lesione Benigna
Immagini ecografiche mammarie contenenti lesioni benigne confermate patologicamente (BI-RADS 2-4B), inclusi fibroadenoma, cisti, lipoma, adenosi sclerosante, papilloma intraduttale e lesioni non masse (NML) selezionate.
|
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API.
Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.
|
|
Lesione Maligna
Immagini ecografiche del seno contenenti lesioni maligne confermate patologicamente (BI-RADS 3-5), inclusi carcinoma duttale invasivo, carcinoma lobulare invasivo, carcinoma mucinoso e lesioni non-massa selezionate (NML).
|
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API.
Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.
|
Cosa sta misurando lo studio?
Misure di risultato primarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Accuratezza Diagnostica per Diagnosi Patologica
Lasso di tempo: Al completamento dello studio, circa 12 mesi
|
Sensibilità, specificità, valore predittivo positivo (VPP), valore predittivo negativo (VPN) e punteggio F1 dei modelli di IA per la classificazione benigno-maligno, con diagnosi istopatologica come gold standard.
|
Al completamento dello studio, circa 12 mesi
|
|
Accuratezza della Classificazione BI-RADS
Lasso di tempo: Al termine dello studio, circa 12 mesi
|
Accuratezza complessiva dei modelli di intelligenza artificiale nell'assegnare le categorie BI-RADS (2, 3, 4A, 4B, 4C, 5) alle immagini ecografiche mammarie, confrontata con l'annotazione di consenso degli esperti come standard di riferimento.
|
Al termine dello studio, circa 12 mesi
|
Misure di risultato secondarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Accordo con il Consenso degli Esperti (Cohen's Kappa)
Lasso di tempo: Al completamento dello studio, circa 12 mesi
|
Coefficiente kappa di Cohen che misura la concordanza tra la classificazione BI-RADS di ogni modello di IA e l'annotazione del consenso degli esperti, riportato con intervalli di confidenza al 95%.
|
Al completamento dello studio, circa 12 mesi
|
|
Tasso di Rifiuto Fuori Distribuzione
Lasso di tempo: Al completamento dello studio, circa 12 mesi
|
Proporzione di immagini non diagnostiche (qualità degradata, ecografia non mammaria, altre modalità di imaging) correttamente identificate e rifiutate dai modelli di intelligenza artificiale, valutando la sicurezza del dominio.
|
Al completamento dello studio, circa 12 mesi
|
|
Sensibilità, Specificità, VPP, VPN e Punteggio F1
Lasso di tempo: Al termine dello studio, circa 12 mesi
|
Metriche standard di performance diagnostica per la classificazione benigno-maligno, riportate per ciascun modello di IA individualmente.
|
Al termine dello studio, circa 12 mesi
|
Collaboratori e investigatori
Collaboratori
Investigatori
- Investigatore principale: Qingli Zhu, MD, Peking Union Medical College Hospital
Pubblicazioni e link utili
Pubblicazioni generali
- Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May;71(3):209-249. doi: 10.3322/caac.21660. Epub 2021 Feb 4.
- Bi WL, Hosny A, Schabath MB, Giger ML, Birkbak NJ, Mehrtash A, Allison T, Arnaout O, Abbosh C, Dunn IF, Mak RH, Tamimi RM, Tempany CM, Swanton C, Hoffmann U, Schwartz LH, Gillies RJ, Huang RY, Aerts HJWL. Artificial intelligence in cancer imaging: Clinical challenges and applications. CA Cancer J Clin. 2019 Mar;69(2):127-157. doi: 10.3322/caac.21552. Epub 2019 Feb 5.
- Collins GS, Moons KGM, Dhiman P, Riley RD, Beam AL, Van Calster B, Ghassemi M, Liu X, Reitsma JB, van Smeden M, Boulesteix AL, Camaradou JC, Celi LA, Denaxas S, Denniston AK, Glocker B, Golub RM, Harvey H, Heinze G, Hoffman MM, Kengne AP, Lam E, Lee N, Loder EW, Maier-Hein L, Mateen BA, McCradden MD, Oakden-Rayner L, Ordish J, Parnell R, Rose S, Singh K, Wynants L, Logullo P. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 16;385:e078378. doi: 10.1136/bmj-2023-078378.
- Benary M, Wang XD, Schmidt M, Soll D, Hilfenhaus G, Nassir M, Sigler C, Knodler M, Keller U, Beule D, Keilholz U, Leser U, Rieke DT. Leveraging Large Language Models for Decision Support in Personalized Oncology. JAMA Netw Open. 2023 Nov 1;6(11):e2343689. doi: 10.1001/jamanetworkopen.2023.43689.
- Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023 Jun;307(5):e230582. doi: 10.1148/radiol.230582. Epub 2023 May 16.
- Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Loffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. doi: 10.1038/s43856-023-00370-1.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021 Dec;27(12):2176-2182. doi: 10.1038/s41591-021-01595-0. Epub 2021 Dec 10.
- Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, Rajpurkar P. Foundation models for generalist medical artificial intelligence. Nature. 2023 Apr;616(7956):259-265. doi: 10.1038/s41586-023-05881-4. Epub 2023 Apr 12.
- Miaojiao S, Xia L, Xian Tao Z, Zhi Liang H, Sheng C, Songsong W. Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study. JMIR Med Inform. 2025 Jun 11;13:e70924. doi: 10.2196/70924.
- Jiao J, Zhou J, Li X, Xia M, Huang Y, Huang L, Wang N, Zhang X, Zhou S, Wang Y, Guo Y. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal. 2024 Aug;96:103202. doi: 10.1016/j.media.2024.103202. Epub 2024 May 15.
- Xiang H, Wang X, Xu M, Zhang Y, Zeng S, Li C, Liu L, Deng T, Tang G, Yan C, Ou J, Lin Q, He J, Sun P, Li A, Chen H, Heng PA, Lin X. Deep Learning-assisted Diagnosis of Breast Lesions on US Images: A Multivendor, Multicenter Study. Radiol Artif Intell. 2023 Jul 12;5(5):e220185. doi: 10.1148/ryai.220185. eCollection 2023 Sep.
- Kottlors J, Iuga AI, Bluethgen C, Bressem K, Kather JN, Moy L, Wald C, Wang W, Liu T, Ranschaert E, Dratsch T, Kleesiek J, Gertz RJ, Rajpurkar P, Bedayat A, Fink MA, Zeeck A, Chaudhari A, Alkasab T, Wu H, Nensa F, Wang B, Grosse Hokamp N, Laukamp KR, Persigehl T, Maintz D, Truhn D, Lennartz S. Guidelines for Reporting Studies on Large Language Models in Radiology: An International Delphi Expert Survey. Radiology. 2026 Feb;318(2):e250913. doi: 10.1148/radiol.250913.
Studiare le date dei record
Studia le date principali
Inizio studio (Effettivo)
Completamento primario (Stimato)
Completamento dello studio (Stimato)
Date di iscrizione allo studio
Primo inviato
Primo inviato che soddisfa i criteri di controllo qualità
Primo Inserito (Effettivo)
Aggiornamenti dei record di studio
Ultimo aggiornamento pubblicato (Effettivo)
Ultimo aggiornamento inviato che soddisfa i criteri QC
Ultimo verificato
Maggiori informazioni
Termini relativi a questo studio
Parole chiave
Termini MeSH pertinenti aggiuntivi
Altri numeri di identificazione dello studio
- K10349
- 2024-I2M-CT-B-035 (Altro numero di sovvenzione/finanziamento: CAMS Innovation Fund for Medical Sciences)
- I-26PJ0568 (Altro identificatore: Ethics Committee, Peking Union Medical College Hospital)
Piano per i dati dei singoli partecipanti (IPD)
Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?
Descrizione del piano IPD
Periodo di condivisione IPD
Criteri di accesso alla condivisione IPD
Tipo di informazioni di supporto alla condivisione IPD
- STUDIO_PROTOCOLLO
- LINFA
- CODICE_ANALITICO
Informazioni su farmaci e dispositivi, documenti di studio
Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti
Studia un dispositivo regolamentato dalla FDA degli Stati Uniti
Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .
Prove cliniche su Neoplasie mammarie
-
Tianjin Medical University Cancer Institute and...Guangxi Medical University; Sun Yat-sen University; Chinese PLA General Hospital; The First Affiliated Hospital of Zhengzhou University e altri collaboratoriCompletatoLa guida all'applicazione clinica di Conebeam Breast CTCina
-
Emory UniversityNational Cancer Institute (NCI)RitiratoCancro al seno in stadio IV prognostico AJCC v8 | Neoplasia maligna metastatica nel cervello | Carcinoma mammario metastatico | Anatomic Stage IV Breast Cancer American Joint Committee on Cancer (AJCC) v8
-
NRG OncologyNational Cancer Institute (NCI)CompletatoCancro al seno in stadio anatomico IV AJCC v8 | Cancro al seno in stadio IV prognostico AJCC v8 | Neoplasia maligna metastatica nell'osso | Neoplasia maligna metastatica nei linfonodi | Neoplasia maligna metastatica nel fegato | Carcinoma mammario metastatico | Neoplasia maligna metastatica nel... e altre condizioniStati Uniti, Canada, Arabia Saudita, Corea del Sud
-
University of California, DavisNational Cancer Institute (NCI)ReclutamentoCancro al seno in stadio anatomico III AJCC v8 | Neoplasia solida maligna avanzata | Cancro al polmone in stadio III AJCC v8 | Cancro al polmone in stadio IV AJCC v8 | Cancro a cellule renali in stadio III AJCC v8 | Cancro a cellule renali in stadio IV AJCC v8 | Melanoma cutaneo in stadio clinico... e altre condizioniStati Uniti