- ICH GCP
- Registro degli studi clinici negli Stati Uniti
- Sperimentazione clinica NCT07352475
Arricchimento del Ragionamento con Feedback dell'IA nello Studio di Nefrologia (REFINe)
Miglioramento del Ragionamento con Feedback da un'Intelligenza Artificiale Generativa in Nefrologia (REFINe): Una Valutazione Randomizzata del Supporto dell'Intelligenza Artificiale Generativa nella Diagnosi Nefrologica
L'obiettivo di questo studio clinico è capire come l'intelligenza artificiale (IA) possa aiutare i medici a formulare diagnosi in nefrologia. I ricercatori vogliono sapere se uno strumento di IA chiamato modello linguistico di grandi dimensioni (LLM) può aiutare i medici a scegliere la diagnosi corretta più spesso e a sentirsi più sicuri nelle loro risposte.
Prima di iniziare lo studio, il team di ricerca ha testato diversi modelli di IA e ha scelto uno dei migliori, un modello di classe GPT-5 impostato per utilizzare un elevato sforzo di ragionamento.
Le principali domande a cui questo studio mira a rispondere sono:
- I medici formulano diagnosi più corrette quando possono vedere i suggerimenti dell'IA?
- Il vedere i suggerimenti dell'IA cambia quanto i medici si sentono sicuri della loro diagnosi?
I ricercatori confronteranno i medici che ricevono suggerimenti dell'IA con i medici che non li ricevono per vedere come l'IA influisce su accuratezza, sicurezza e processo decisionale.
I partecipanti completeranno fino a 10 casi clinici online. Per ogni caso, dovranno:
- Leggere un breve scenario medico
- Suggerire fino a tre possibili diagnosi
(Se nel gruppo IA) Rivedere i suggerimenti dell'IA e decidere se modificare la propria risposta
Lo studio esaminerà anche quanto tempo impiegano i partecipanti a rispondere a ogni caso e come le prestazioni dell'IA si confrontano con le risposte umane.
Panoramica dello studio
Stato
Condizioni
Intervento / Trattamento
Descrizione dettagliata
Questo studio valuta se fornire ai clinici suggerimenti diagnostici in tempo reale da un modello linguistico avanzato ad alto ragionamento (GPT-5) migliori l'accuratezza diagnostica, la sicurezza e l'efficienza nella risoluzione di vignette cliniche di nefrologia. Prima di selezionare il modello per la sperimentazione, il team di ricerca ha valutato diversi modelli all'avanguardia su un set pilota di casi nefrologici, tra cui: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5 e Magistral-Medium-2509. GPT-5 (alto ragionamento) ha dimostrato le migliori prestazioni diagnostiche, stabilità e interpretabilità, ed è stato selezionato come sistema di intelligenza artificiale utilizzato nel braccio di intervento.
I partecipanti includono studenti di medicina, specializzandi, borsisti e medici in attività. Dopo aver creato un account, i partecipanti completano un questionario demografico (specializzazione, anni di esperienza, tipo di pratica, fascia di età, familiarità con l'IA) e devono esplicitamente acconsentire all'uso di questi dati per scopi di ricerca prima di accedere alle vignette. Non vengono raccolte informazioni direttamente identificative.
I partecipanti vengono randomizzati (con stratificazione per stato professionale) al braccio supportato dall'IA o al braccio di controllo. A ciascun partecipante vengono assegnate 10 vignette di nefrologia in francese o inglese e possono completarle in più sessioni. Una volta inviata una vignetta, non può essere rivista ("nessun backtracking"). Il tempo di completamento per vignetta viene registrato automaticamente.
Braccio di Controllo
I partecipanti visualizzano ciascuna vignetta e forniscono fino a tre diagnosi ("Top-3"), seguite da una valutazione della sicurezza (0-10).
Braccio Supportato dall'IA
I partecipanti inseriscono prima una diagnosi Top-3 iniziale e una valutazione della sicurezza senza assistenza dell'IA. Il sistema mostra poi i suggerimenti diagnostici di GPT-5, dopo i quali i partecipanti possono rivedere le loro diagnosi una volta. La vignetta viene bloccata dopo l'invio.
Lo studio raccoglie:
- diagnosi iniziali e finali,
- valutazioni della sicurezza prima e (se applicabile) dopo i suggerimenti dell'IA,
- tempi di completamento,
- variabili demografiche dei partecipanti,
- e gli output diagnostici del modello di IA stesso.
È consentito il completamento parziale; tutte le vignette completate contribuiscono all'analisi.
Gli esiti primari e secondari includono l'accuratezza diagnostica (Top-3 e Top-1), il miglioramento dell'accuratezza prima vs. dopo l'IA, i cambiamenti nella sicurezza diagnostica, gli errori diagnostici indotti dall'IA, il confronto uomo-IA, le metriche di efficienza del tempo di completamento e la proporzione di vignette assegnate completate.
L'analisi primaria confronterà l'accuratezza diagnostica tra il braccio di controllo (medici da soli) e il braccio sperimentale (medici assistiti dal modello di IA). L'accuratezza viene analizzata come esito binario (diagnosi corretta vs errata). Poiché ciascun partecipante valuta più vignette cliniche, l'accuratezza sarà modellata utilizzando una regressione logistica ad effetti misti con un effetto fisso per il braccio dello studio e intercette casuali sia per il partecipante che per la vignetta. Questo approccio tiene conto del clustering e della variazione di difficoltà tra i casi. Il test di ipotesi primario utilizza un α bilaterale = 0,05. Le dimensioni dell'effetto saranno riportate come rapporti di probabilità con intervalli di confidenza al 95%. Le analisi secondarie esploreranno se l'accuratezza varia in base a fattori demografici (ad esempio, livello di esperienza, specializzazione) utilizzando termini di interazione.
Poiché ciascun partecipante valuta più vignette, il team ha anche eseguito analisi di potenza basate su simulazione utilizzando modelli di regressione logistica ad effetti misti con intercette casuali sia per il partecipante che per la vignetta, assumendo un ICC intra-partecipante di 0,10. In queste ipotesi, un campione totale di 100 partecipanti (50 per braccio) con 10 vignette per partecipante fornisce una potenza >99% per rilevare un miglioramento clinicamente significativo nell'accuratezza diagnostica. I ricercatori pertanto prevedono di arruolare circa 100 partecipanti in totale.
Questo studio mira a quantificare se il ragionamento aumentato dall'IA migliori significativamente le prestazioni diagnostiche e il processo decisionale quando i clinici valutano casi complessi di nefrologia.
Tipo di studio
Iscrizione (Stimato)
Fase
- Non applicabile
Contatti e Sedi
Contatto studio
- Nome: Raphaël BENTEGEAC, MD, MPH
- Numero di telefono: +33651204000
- Email: raphael.bentegeac@univ-lille.fr
Luoghi di studio
-
-
-
Lille, Francia, 59000
- Reclutamento
- Lille University Hospital (online study)
-
Contatto:
- Raphaël BENTEGEAC, MD, MPH
- Numero di telefono: +33651204000
- Email: raphael.bentegeac@chu-lille.fr
-
Contatto:
- Aghiles HAMROUN, MD, PhD
- Email: aghiles.hamroun@univ-lille.fr
-
-
Criteri di partecipazione
Criteri di ammissibilità
Età idonea allo studio
- Adulto
- Adulto più anziano
Accetta volontari sani
Descrizione
Criteri di inclusione:
Adulti di età pari o superiore a 18 anni.
In grado di leggere e rispondere a casi clinici in inglese o francese.
Accesso a un computer o smartphone con connessione internet.
Fornisce il consenso informato online.
I partecipanti dovrebbero avere almeno una formazione medica di base (ad esempio, studenti di medicina, specializzandi, borsisti o medici in esercizio), sebbene non sia richiesta alcuna verifica formale.
Criteri di esclusione:
Individui di età inferiore a 18 anni.
Incapacità di completare le procedure di studio online.
Partecipazione precedente alla progettazione, sviluppo o valutazione del sistema di intelligenza artificiale utilizzato in questo studio.
Piano di studio
Come è strutturato lo studio?
Dettagli di progettazione
- Scopo principale: Diagnostico
- Assegnazione: Randomizzato
- Modello interventistico: Assegnazione parallela
- Mascheramento: Nessuno (etichetta aperta)
Armi e interventi
Gruppo di partecipanti / Arm |
Intervento / Trattamento |
|---|---|
|
Sperimentale: Gruppo con suggerimenti AI
I partecipanti in questo braccio completeranno le stesse vignette cliniche del gruppo di controllo.
Per ogni caso, riceveranno una diagnosi suggerita generata da un modello linguistico di grandi dimensioni (GPT-5, configurazione ad alto ragionamento), selezionata dopo benchmark interni.
I partecipanti possono rivedere il suggerimento dell'IA prima di inserire la propria risposta diagnostica finale.
Non vengono fornite informazioni aggiuntive, prompt o coaching.
L'intervento consiste unicamente nella visualizzazione del suggerimento diagnostico generato dall'IA durante l'attività di risoluzione dei casi.
|
Questo intervento consiste nel mostrare un suggerimento diagnostico generato dall'intelligenza artificiale durante il compito di risoluzione del caso clinico.
Dopo aver letto ogni caso clinico, i partecipanti vedono la proposta diagnostica principale prodotta da un modello linguistico di grandi dimensioni (GPT-5, configurazione ad alto ragionamento), selezionata dopo benchmark interni.
Il suggerimento dell'IA appare una volta per caso clinico e non può essere richiesto nuovamente o modificato.
I partecipanti possono rivedere la loro risposta diagnostica dopo aver visto il suggerimento, ma non possono tornare al caso clinico in seguito.
Non vengono fornite ulteriori indicazioni, coaching o funzionalità interattive.
|
|
Nessun intervento: Gruppo senza suggerimenti di IA
I partecipanti in questo braccio completeranno i casi clinici in modo indipendente, senza alcun suggerimento diagnostico generato dall'IA.
Leggeranno ogni caso clinico e forniranno la propria risposta diagnostica basandosi esclusivamente sulle informazioni presentate.
Non viene fornito alcun supporto decisionale esterno né materiali aggiuntivi.
|
Cosa sta misurando lo studio?
Misure di risultato primarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Accuratezza diagnostica finale (top-3) con vs senza supporto AI
Lasso di tempo: Dal primo vignette risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ogni partecipante, proporzione di vignette in cui la diagnosi principale corretta è inclusa nelle prime 3 diagnosi finali del partecipante. Confrontare l'accuratezza delle prime 3 diagnosi finali tra il braccio IA (dopo i suggerimenti dell'IA) e il braccio di controllo (senza IA). Percentuale di casi diagnosticati correttamente (prime 3 diagnosi). |
Dal primo vignette risposto fino alla fine dello studio (fino a 12 mesi).
|
Misure di risultato secondarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Accuratezza diagnostica finale (top-1) con vs senza supporto IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ciascun partecipante, proporzione di vignette in cui la diagnosi principale corretta è inclusa nelle diagnosi finali top-1 del partecipante.
Confrontare l'accuratezza finale top-1 tra il braccio AI (dopo i suggerimenti dell'IA) e il braccio di controllo (senza IA).
Percentuale di casi diagnosticati correttamente (top-1).
|
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Variazione della precisione diagnostica top-3 prima e dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Nel braccio supportato dall'IA, i partecipanti forniscono prima una risposta iniziale (fino a tre diagnosi) senza suggerimenti dell'IA, poi vedono i suggerimenti generati dall'IA e possono rivedere la loro risposta una volta; non possono tornare a quel caso clinico in seguito. Per ciascun partecipante, gli investigatori calcolano la differenza nell'accuratezza delle prime tre diagnosi tra le risposte iniziali e finali in tutti i casi clinici completati. Variazione in punti percentuali nell'accuratezza diagnostica delle prime tre diagnosi |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Variazione dell'accuratezza diagnostica top-1 prima vs dopo i suggerimenti dell'IA (solo braccio AI)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Nel braccio supportato dall'IA, i partecipanti forniscono prima una risposta iniziale (fino a tre diagnosi) senza suggerimenti dell'IA, poi vedono suggerimenti generati dall'IA e possono rivedere la loro risposta una volta; non possono tornare a quella vignetta in seguito. Per ciascun partecipante, i ricercatori calcolano la differenza nella precisione top-1 tra le risposte iniziali e finali in tutte le vignette completate. Variazione in punti percentuali della precisione diagnostica Top-1 |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Fiducia diagnostica (0-10) prima dei suggerimenti dell'IA: Braccio di controllo vs braccio IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
I partecipanti in entrambi i bracci valutano la propria fiducia (scala 0-10) nelle loro prime 3 proposte diagnostiche prima di qualsiasi suggerimento dell'IA. Nel braccio IA, questa è la valutazione "pre-IA". Nel braccio di controllo, questa è l'unica valutazione di fiducia (poiché non viene mostrata alcuna IA). I ricercatori confrontano la fiducia pre-IA tra i bracci, aggregata per tutte le vignette completate per partecipante. |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Fiducia diagnostica finale (0-10) dopo i suggerimenti dell'IA: Gruppo di controllo vs gruppo IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Fiducia diagnostica finale (scala 0-10) nella proposta diagnostica Top-3 tra tutte le vignette completate, confrontata tra i bracci. Nel braccio IA, questa è la valutazione della fiducia post-IA. Nel braccio di controllo, questa è la stessa valutazione della fiducia (i partecipanti non ricevono suggerimenti IA). |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Cambiamento della fiducia diagnostica (0-10) prima vs dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Nel braccio di IA, i partecipanti forniscono valutazioni di confidenza (scala 0-10) per le loro prime 3 diagnosi sia prima che dopo aver visto i suggerimenti dell'IA. Per ciascun partecipante, i ricercatori calcolano la variazione intra-participante (post-IA meno pre-IA) attraverso tutti i casi clinici completati. Variazione del punteggio di confidenza (scala 0-10) |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Errore diagnostico indotto dall'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Tra le vignette completate in cui la diagnosi Top-1 iniziale del partecipante è corretta, proporzione per cui la diagnosi Top-1 finale diventa errata dopo i suggerimenti dell'IA.
|
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Cambiamento nelle prime 3 diagnosi dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Tra le vignette completate nel braccio IA, la proporzione in cui la diagnosi Top-3 differisce tra le risposte pre-IA e post-IA.
|
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Top-3 accuratezza diagnostica: Tutte le risposte umane prima dell'IA vs accuratezza dell'IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ogni vignetta, l'accuratezza diagnostica Top-3 dei partecipanti umani prima di qualsiasi suggerimento dell'IA (combinando i partecipanti di entrambi i bracci dello studio nella loro fase pre-IA) viene confrontata con l'accuratezza diagnostica Top-3 del modello di IA per la stessa vignetta. L'Outcome riportato è la differenza di accuratezza, definita come accuratezza Top-3 dell'IA meno accuratezza Top-3 umana pre-IA, espressa in punti percentuali e calcolata a livello di vignetta su tutte le vignette completate. Differenza in punti percentuali nell'accuratezza diagnostica Top-3 |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Top-3 accuratezza diagnostica: Risposte finali umane dopo AI vs accuratezza AI (solo braccio AI)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ogni vignetta completata nel braccio supportato dall'IA, l'accuratezza diagnostica Top-3 dei partecipanti umani dopo aver visualizzato i suggerimenti dell'IA viene confrontata con l'accuratezza diagnostica Top-3 del modello di IA. (L'accuratezza Top-3 è una singola misura) L'Outcome riportato è la differenza di accuratezza, definita come accuratezza Top-3 dell'IA meno accuratezza Top-3 umana post-IA, espressa in punti percentuali e calcolata a livello di vignetta attraverso tutte le vignette completate nel braccio IA. Differenza in punti percentuali nell'accuratezza diagnostica Top-3 tra IA e umano |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Tempo di completamento per ogni vignetta con e senza supporto dell'IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ogni vignetta, la piattaforma registra il tempo dall'apertura della vignetta all'invio della risposta. Nel braccio di controllo, viene registrato un singolo tempo di completamento per ogni vignetta. Nel braccio supportato dall'IA, il tempo di completamento viene registrato prima della visualizzazione dei suggerimenti dell'IA e nuovamente dopo la visualizzazione dei suggerimenti dell'IA. L'Outcome riporta la differenza nel tempo di completamento tra i bracci dello studio, espressa in secondi e calcolata su tutte le vignette completate. Secondi (differenza nel tempo di completamento) |
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
|
Proporzione di vignette assegnate completate
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Per ciascun partecipante, la proporzione dei 10 vignetti completati entro il periodo di studio, confrontata tra i gruppi.
|
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
|
Collaboratori e investigatori
Sponsor
Studiare le date dei record
Studia le date principali
Inizio studio (Effettivo)
Completamento primario (Stimato)
Completamento dello studio (Stimato)
Date di iscrizione allo studio
Primo inviato
Primo inviato che soddisfa i criteri di controllo qualità
Primo Inserito (Effettivo)
Aggiornamenti dei record di studio
Ultimo aggiornamento pubblicato (Effettivo)
Ultimo aggiornamento inviato che soddisfa i criteri QC
Ultimo verificato
Maggiori informazioni
Termini relativi a questo studio
Parole chiave
Termini MeSH pertinenti aggiuntivi
Altri numeri di identificazione dello studio
- CHUL-191125
Informazioni su farmaci e dispositivi, documenti di studio
Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti
Studia un dispositivo regolamentato dalla FDA degli Stati Uniti
Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .