Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Costruzione di un Benchmark per l'Interpretazione AI degli Ultrasuoni Mammari e Valutazione delle Prestazioni dei Modelli AI Multimodali (BUST-AI Bench)

24 marzo 2026 aggiornato da: Qingli Zhu, Peking Union Medical College Hospital

Costruzione di un Sistema di Valutazione Benchmark Standardizzato per l'Interpretazione Intelligente delle Immagini Ecografiche Mammarie e Valutazione Sistematica delle Prestazioni dei Modelli di Intelligenza Artificiale Multimodale Basati sui Criteri ACR BI-RADS v2025

Questo studio osservazionale retrospettivo monocentrico mira a costruire un sistema di valutazione standardizzato per l'interpretazione intelligente delle immagini ecografiche mammarie e a valutare sistematicamente le prestazioni diagnostiche degli attuali modelli di intelligenza artificiale (AI) multimodale principali.

Immagini ecografiche mammarie in modalità B deidentificate con diagnosi patologiche confermate saranno raccolte retrospettivamente dall'archivio istituzionale (2018-2025) e integrate con immagini provenienti da dataset open-access pubblicati. Radiologi esperti con diversi livelli di esperienza annoteranno indipendentemente tutte le immagini secondo i criteri del Breast Imaging Reporting and Data System (BI-RADS) v2025 dell'American College of Radiology (ACR), inclusa la composizione del tessuto ghiandolare, la caratterizzazione delle lesioni (massa vs. lesione non-massa), i descrittori morfologici e la classificazione BI-RADS finale.

I modelli di deep learning di base (ResNet-50 basato su CNN e USFM basato su Transformer) saranno addestrati per stabilire le prestazioni di riferimento e stratificare i casi per difficoltà diagnostica attraverso un consenso cross-architettura. Diversi modelli linguistici multimodali di grandi dimensioni (MLLM), inclusi sia modelli generici che specifici per il dominio medico, saranno quindi valutati tramite chiamate API standardizzate utilizzando prompt a catena di pensiero guidati da BI-RADS a temperatura 0 per la riproducibilità.

Gli endpoint primari includono l'accuratezza della classificazione BI-RADS e l'AUC diagnostica per la differenziazione benigno-maligna. La robustezza e la sicurezza del modello saranno valutate attraverso test di rifiuto fuori distribuzione, esperimenti di stabilità della temperatura e studi di ablazione della modalità di pensiero. Questo studio aderisce alle linee guida di reporting FLAIR e TRIPOD-LLM.

Panoramica dello studio

Descrizione dettagliata

Contesto: Il cancro al seno è la neoplasia maligna più diffusa tra le donne in tutto il mondo. L'ecografia è una modalità di screening di prima linea, in particolare nelle popolazioni asiatiche con tessuto mammario denso dove la sensibilità mammografica è limitata. Tuttavia, l'interpretazione dell'ecografia è fortemente dipendente dall'operatore, con una sostanziale variabilità inter-osservatore nella classificazione BI-RADS, specialmente per le lesioni di categoria 4A-4B. I modelli linguistici multimodali di grandi dimensioni (MLLM) sono emersi come uno strumento promettente per l'analisi delle immagini mediche grazie alla loro capacità diagnostica zero-shot, al ragionamento a catena del pensiero interpretabile e alla generazione di rapporti strutturati. Tuttavia, attualmente non esiste un benchmark standardizzato per valutare le prestazioni dell'IA nell'interpretazione dell'ecografia mammaria.

Disegno dello studio: Verranno curate circa 1.380 immagini ecografiche del seno (1.200 set di valutazione + 150 set di test di sicurezza fuori distribuzione + 30 set di sviluppo dei prompt), comprendenti tre categorie diagnostiche: seno normale, lesioni benigne (BI-RADS 2-4B) e lesioni maligne (BI-RADS 3-5). Due radiologi junior (<5 anni di esperienza) e due radiologi senior (>15 anni) annoteranno indipendentemente le immagini secondo ACR BI-RADS v2025, con arbitraggio di un quinto esperto per i casi discordanti.

La difficoltà diagnostica sarà stratificata in tre livelli utilizzando il consenso dell'apprendimento profondo cross-architettura: Livello 1 (semplice, entrambi i modelli corretti), Livello 2 (equivoco, uno corretto/uno errato) e Livello 3 (difficile, entrambi errati, con validazione di esperti senior). Gli MLLM saranno valutati su più dimensioni: accuratezza di classificazione, sensibilità, specificità, punteggio F1, AUC, accordo di kappa di Cohen con il consenso degli esperti, errore di calibrazione atteso (ECE), accuratezza nella descrizione delle caratteristiche morfologiche e qualità del ragionamento a catena del pensiero.

Valutazione della sicurezza: (1) Test di rifiuto fuori distribuzione utilizzando 150 immagini non diagnostiche (immagini degradate, ecografie non mammarie, altre modalità di imaging); (2) Pre-esperimento di stabilità della temperatura su diverse impostazioni dei parametri; (3) Ablazione della modalità di pensiero confrontando le modalità di ragionamento standard e a catena del pensiero. Tutti gli esperimenti utilizzano snapshot di modelli fissi, monitoraggio dell'impronta digitale del sistema e registrazione completa per la riproducibilità.

Tipo di studio

Osservativo

Iscrizione (Stimato)

1380

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Contatto studio

  • Nome: Qingli Zhu, MD
  • Numero di telefono: +86 13621376699
  • Email: zqlpumch@126.com

Backup dei contatti dello studio

Luoghi di studio

      • Beijing, Cina, 100730
        • Reclutamento
        • Peking Union Medical College Hospital
        • Contatto:

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

  • Adulto
  • Adulto più anziano

Accetta volontari sani

Metodo di campionamento

Campione non probabilistico

Popolazione di studio

Immagini ecografiche della mammella de-identificate di pazienti adulti sottoposti a esame ecografico della mammella presso il Peking Union Medical College Hospital tra il 2018 e il 2025 con successiva conferma patologica, integrate da immagini provenienti da dataset ecografici della mammella open-access, pubblicati e approvati da comitati etici (ad esempio, BUSI, BrEaST).

Descrizione

Criteri di inclusione:

  • Immagini ecografiche mammarie in scala di grigi in modalità B provenienti dal database PACS istituzionale o da dataset ecografici mammari open-access pubblicati con approvazione etica istituzionale originale documentata
  • Qualità dell'immagine adeguata per la diagnosi clinica con visualizzazione chiara della regione di interesse
  • Diagnosi patologica confermata (per i gruppi di lesioni benigne e maligne), o stato mammario normale confermato da un radiologo senior con >15 anni di esperienza in ecografia mammaria (per il gruppo normale)
  • De-identificazione completa con rimozione di tutte le informazioni personali identificabili

Criteri di esclusione:

  • Qualità dell'immagine gravemente degradata che impedisce una valutazione BI-RADS significativa
  • Immagini duplicate dello stesso paziente (viene conservata solo l'immagine più rappresentativa per lesione)
  • Immagini con informazioni personali identificabili residue dopo l'elaborazione di de-identificazione
  • Casi con risultati patologici ambigui, controversi o non disponibili
  • Immagini ecografiche non in modalità B, inclusa elastografia, ecografia con mezzo di contrasto e imaging Doppler

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

Coorti e interventi

Gruppo / Coorte
Intervento / Trattamento
Mammella Normale
Immagini ecografiche della mammella che mostrano tessuto ghiandolare normale in diversi tipi di composizione tissutale, senza lesioni focali identificate. Confermato da revisione del radiologo senior.
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API. Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.
Lesione Benigna
Immagini ecografiche mammarie contenenti lesioni benigne confermate patologicamente (BI-RADS 2-4B), inclusi fibroadenoma, cisti, lipoma, adenosi sclerosante, papilloma intraduttale e lesioni non masse (NML) selezionate.
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API. Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.
Lesione Maligna
Immagini ecografiche del seno contenenti lesioni maligne confermate patologicamente (BI-RADS 3-5), inclusi carcinoma duttale invasivo, carcinoma lobulare invasivo, carcinoma mucinoso e lesioni non-massa selezionate (NML).
Valutazione retrospettiva di immagini ecografiche mammarie de-identificate da più sistemi di IA, inclusi modelli di deep learning di base (ResNet-50, USFM) e modelli linguistici multimodali di grandi dimensioni, utilizzando prompt standardizzati guidati da BI-RADS a catena di pensiero tramite API. Non è coinvolto alcun contatto con i pazienti o alcun processo decisionale clinico.

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Accuratezza Diagnostica per Diagnosi Patologica
Lasso di tempo: Al completamento dello studio, circa 12 mesi
Sensibilità, specificità, valore predittivo positivo (VPP), valore predittivo negativo (VPN) e punteggio F1 dei modelli di IA per la classificazione benigno-maligno, con diagnosi istopatologica come gold standard.
Al completamento dello studio, circa 12 mesi
Accuratezza della Classificazione BI-RADS
Lasso di tempo: Al termine dello studio, circa 12 mesi
Accuratezza complessiva dei modelli di intelligenza artificiale nell'assegnare le categorie BI-RADS (2, 3, 4A, 4B, 4C, 5) alle immagini ecografiche mammarie, confrontata con l'annotazione di consenso degli esperti come standard di riferimento.
Al termine dello studio, circa 12 mesi

Misure di risultato secondarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Accordo con il Consenso degli Esperti (Cohen's Kappa)
Lasso di tempo: Al completamento dello studio, circa 12 mesi
Coefficiente kappa di Cohen che misura la concordanza tra la classificazione BI-RADS di ogni modello di IA e l'annotazione del consenso degli esperti, riportato con intervalli di confidenza al 95%.
Al completamento dello studio, circa 12 mesi
Tasso di Rifiuto Fuori Distribuzione
Lasso di tempo: Al completamento dello studio, circa 12 mesi
Proporzione di immagini non diagnostiche (qualità degradata, ecografia non mammaria, altre modalità di imaging) correttamente identificate e rifiutate dai modelli di intelligenza artificiale, valutando la sicurezza del dominio.
Al completamento dello studio, circa 12 mesi
Sensibilità, Specificità, VPP, VPN e Punteggio F1
Lasso di tempo: Al termine dello studio, circa 12 mesi
Metriche standard di performance diagnostica per la classificazione benigno-maligno, riportate per ciascun modello di IA individualmente.
Al termine dello studio, circa 12 mesi

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Investigatori

  • Investigatore principale: Qingli Zhu, MD, Peking Union Medical College Hospital

Pubblicazioni e link utili

La persona responsabile dell'inserimento delle informazioni sullo studio fornisce volontariamente queste pubblicazioni. Questi possono riguardare qualsiasi cosa relativa allo studio.

Pubblicazioni generali

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Effettivo)

12 marzo 2026

Completamento primario (Stimato)

1 dicembre 2026

Completamento dello studio (Stimato)

1 marzo 2027

Date di iscrizione allo studio

Primo inviato

24 marzo 2026

Primo inviato che soddisfa i criteri di controllo qualità

24 marzo 2026

Primo Inserito (Effettivo)

30 marzo 2026

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

30 marzo 2026

Ultimo aggiornamento inviato che soddisfa i criteri QC

24 marzo 2026

Ultimo verificato

1 marzo 2026

Maggiori informazioni

Termini relativi a questo studio

Altri numeri di identificazione dello studio

  • K10349
  • 2024-I2M-CT-B-035 (Altro numero di sovvenzione/finanziamento: CAMS Innovation Fund for Medical Sciences)
  • I-26PJ0568 (Altro identificatore: Ethics Committee, Peking Union Medical College Hospital)

Piano per i dati dei singoli partecipanti (IPD)

Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?

Descrizione del piano IPD

Il dataset di valutazione di riferimento de-identificato, comprendente immagini ecografiche della mammella annotate da esperti con relativi rapporti di lettura BI-RADS, è previsto per il rilascio pubblico per promuovere la riproducibilità accademica e la ricerca collaborativa.

Periodo di condivisione IPD

Entro 6 mesi dalla pubblicazione primaria, disponibile indefinitamente

Criteri di accesso alla condivisione IPD

Accesso aperto tramite un repository di dati riconosciuto (da determinare)

Tipo di informazioni di supporto alla condivisione IPD

  • STUDIO_PROTOCOLLO
  • LINFA
  • CODICE_ANALITICO

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

No

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

No

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Prove cliniche su Neoplasie mammarie

Sottoscrivi