Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Arricchimento del Ragionamento con Feedback dell'IA nello Studio di Nefrologia (REFINe)

12 gennaio 2026 aggiornato da: Aghiles.HAMROUN, University Hospital, Lille

Miglioramento del Ragionamento con Feedback da un'Intelligenza Artificiale Generativa in Nefrologia (REFINe): Una Valutazione Randomizzata del Supporto dell'Intelligenza Artificiale Generativa nella Diagnosi Nefrologica

L'obiettivo di questo studio clinico è capire come l'intelligenza artificiale (IA) possa aiutare i medici a formulare diagnosi in nefrologia. I ricercatori vogliono sapere se uno strumento di IA chiamato modello linguistico di grandi dimensioni (LLM) può aiutare i medici a scegliere la diagnosi corretta più spesso e a sentirsi più sicuri nelle loro risposte.

Prima di iniziare lo studio, il team di ricerca ha testato diversi modelli di IA e ha scelto uno dei migliori, un modello di classe GPT-5 impostato per utilizzare un elevato sforzo di ragionamento.

Le principali domande a cui questo studio mira a rispondere sono:

  1. I medici formulano diagnosi più corrette quando possono vedere i suggerimenti dell'IA?
  2. Il vedere i suggerimenti dell'IA cambia quanto i medici si sentono sicuri della loro diagnosi?

I ricercatori confronteranno i medici che ricevono suggerimenti dell'IA con i medici che non li ricevono per vedere come l'IA influisce su accuratezza, sicurezza e processo decisionale.

I partecipanti completeranno fino a 10 casi clinici online. Per ogni caso, dovranno:

  1. Leggere un breve scenario medico
  2. Suggerire fino a tre possibili diagnosi

(Se nel gruppo IA) Rivedere i suggerimenti dell'IA e decidere se modificare la propria risposta

Lo studio esaminerà anche quanto tempo impiegano i partecipanti a rispondere a ogni caso e come le prestazioni dell'IA si confrontano con le risposte umane.

Panoramica dello studio

Descrizione dettagliata

Questo studio valuta se fornire ai clinici suggerimenti diagnostici in tempo reale da un modello linguistico avanzato ad alto ragionamento (GPT-5) migliori l'accuratezza diagnostica, la sicurezza e l'efficienza nella risoluzione di vignette cliniche di nefrologia. Prima di selezionare il modello per la sperimentazione, il team di ricerca ha valutato diversi modelli all'avanguardia su un set pilota di casi nefrologici, tra cui: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5 e Magistral-Medium-2509. GPT-5 (alto ragionamento) ha dimostrato le migliori prestazioni diagnostiche, stabilità e interpretabilità, ed è stato selezionato come sistema di intelligenza artificiale utilizzato nel braccio di intervento.

I partecipanti includono studenti di medicina, specializzandi, borsisti e medici in attività. Dopo aver creato un account, i partecipanti completano un questionario demografico (specializzazione, anni di esperienza, tipo di pratica, fascia di età, familiarità con l'IA) e devono esplicitamente acconsentire all'uso di questi dati per scopi di ricerca prima di accedere alle vignette. Non vengono raccolte informazioni direttamente identificative.

I partecipanti vengono randomizzati (con stratificazione per stato professionale) al braccio supportato dall'IA o al braccio di controllo. A ciascun partecipante vengono assegnate 10 vignette di nefrologia in francese o inglese e possono completarle in più sessioni. Una volta inviata una vignetta, non può essere rivista ("nessun backtracking"). Il tempo di completamento per vignetta viene registrato automaticamente.

Braccio di Controllo

I partecipanti visualizzano ciascuna vignetta e forniscono fino a tre diagnosi ("Top-3"), seguite da una valutazione della sicurezza (0-10).

Braccio Supportato dall'IA

I partecipanti inseriscono prima una diagnosi Top-3 iniziale e una valutazione della sicurezza senza assistenza dell'IA. Il sistema mostra poi i suggerimenti diagnostici di GPT-5, dopo i quali i partecipanti possono rivedere le loro diagnosi una volta. La vignetta viene bloccata dopo l'invio.

Lo studio raccoglie:

  • diagnosi iniziali e finali,
  • valutazioni della sicurezza prima e (se applicabile) dopo i suggerimenti dell'IA,
  • tempi di completamento,
  • variabili demografiche dei partecipanti,
  • e gli output diagnostici del modello di IA stesso.

È consentito il completamento parziale; tutte le vignette completate contribuiscono all'analisi.

Gli esiti primari e secondari includono l'accuratezza diagnostica (Top-3 e Top-1), il miglioramento dell'accuratezza prima vs. dopo l'IA, i cambiamenti nella sicurezza diagnostica, gli errori diagnostici indotti dall'IA, il confronto uomo-IA, le metriche di efficienza del tempo di completamento e la proporzione di vignette assegnate completate.

L'analisi primaria confronterà l'accuratezza diagnostica tra il braccio di controllo (medici da soli) e il braccio sperimentale (medici assistiti dal modello di IA). L'accuratezza viene analizzata come esito binario (diagnosi corretta vs errata). Poiché ciascun partecipante valuta più vignette cliniche, l'accuratezza sarà modellata utilizzando una regressione logistica ad effetti misti con un effetto fisso per il braccio dello studio e intercette casuali sia per il partecipante che per la vignetta. Questo approccio tiene conto del clustering e della variazione di difficoltà tra i casi. Il test di ipotesi primario utilizza un α bilaterale = 0,05. Le dimensioni dell'effetto saranno riportate come rapporti di probabilità con intervalli di confidenza al 95%. Le analisi secondarie esploreranno se l'accuratezza varia in base a fattori demografici (ad esempio, livello di esperienza, specializzazione) utilizzando termini di interazione.

Poiché ciascun partecipante valuta più vignette, il team ha anche eseguito analisi di potenza basate su simulazione utilizzando modelli di regressione logistica ad effetti misti con intercette casuali sia per il partecipante che per la vignetta, assumendo un ICC intra-partecipante di 0,10. In queste ipotesi, un campione totale di 100 partecipanti (50 per braccio) con 10 vignette per partecipante fornisce una potenza >99% per rilevare un miglioramento clinicamente significativo nell'accuratezza diagnostica. I ricercatori pertanto prevedono di arruolare circa 100 partecipanti in totale.

Questo studio mira a quantificare se il ragionamento aumentato dall'IA migliori significativamente le prestazioni diagnostiche e il processo decisionale quando i clinici valutano casi complessi di nefrologia.

Tipo di studio

Interventistico

Iscrizione (Stimato)

100

Fase

  • Non applicabile

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Contatto studio

Luoghi di studio

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

  • Adulto
  • Adulto più anziano

Accetta volontari sani

Descrizione

Criteri di inclusione:

Adulti di età pari o superiore a 18 anni.

In grado di leggere e rispondere a casi clinici in inglese o francese.

Accesso a un computer o smartphone con connessione internet.

Fornisce il consenso informato online.

I partecipanti dovrebbero avere almeno una formazione medica di base (ad esempio, studenti di medicina, specializzandi, borsisti o medici in esercizio), sebbene non sia richiesta alcuna verifica formale.

Criteri di esclusione:

Individui di età inferiore a 18 anni.

Incapacità di completare le procedure di studio online.

Partecipazione precedente alla progettazione, sviluppo o valutazione del sistema di intelligenza artificiale utilizzato in questo studio.

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

  • Scopo principale: Diagnostico
  • Assegnazione: Randomizzato
  • Modello interventistico: Assegnazione parallela
  • Mascheramento: Nessuno (etichetta aperta)

Armi e interventi

Gruppo di partecipanti / Arm
Intervento / Trattamento
Sperimentale: Gruppo con suggerimenti AI
I partecipanti in questo braccio completeranno le stesse vignette cliniche del gruppo di controllo. Per ogni caso, riceveranno una diagnosi suggerita generata da un modello linguistico di grandi dimensioni (GPT-5, configurazione ad alto ragionamento), selezionata dopo benchmark interni. I partecipanti possono rivedere il suggerimento dell'IA prima di inserire la propria risposta diagnostica finale. Non vengono fornite informazioni aggiuntive, prompt o coaching. L'intervento consiste unicamente nella visualizzazione del suggerimento diagnostico generato dall'IA durante l'attività di risoluzione dei casi.
Questo intervento consiste nel mostrare un suggerimento diagnostico generato dall'intelligenza artificiale durante il compito di risoluzione del caso clinico. Dopo aver letto ogni caso clinico, i partecipanti vedono la proposta diagnostica principale prodotta da un modello linguistico di grandi dimensioni (GPT-5, configurazione ad alto ragionamento), selezionata dopo benchmark interni. Il suggerimento dell'IA appare una volta per caso clinico e non può essere richiesto nuovamente o modificato. I partecipanti possono rivedere la loro risposta diagnostica dopo aver visto il suggerimento, ma non possono tornare al caso clinico in seguito. Non vengono fornite ulteriori indicazioni, coaching o funzionalità interattive.
Nessun intervento: Gruppo senza suggerimenti di IA
I partecipanti in questo braccio completeranno i casi clinici in modo indipendente, senza alcun suggerimento diagnostico generato dall'IA. Leggeranno ogni caso clinico e forniranno la propria risposta diagnostica basandosi esclusivamente sulle informazioni presentate. Non viene fornito alcun supporto decisionale esterno né materiali aggiuntivi.

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Accuratezza diagnostica finale (top-3) con vs senza supporto AI
Lasso di tempo: Dal primo vignette risposto fino alla fine dello studio (fino a 12 mesi).

Per ogni partecipante, proporzione di vignette in cui la diagnosi principale corretta è inclusa nelle prime 3 diagnosi finali del partecipante. Confrontare l'accuratezza delle prime 3 diagnosi finali tra il braccio IA (dopo i suggerimenti dell'IA) e il braccio di controllo (senza IA).

Percentuale di casi diagnosticati correttamente (prime 3 diagnosi).

Dal primo vignette risposto fino alla fine dello studio (fino a 12 mesi).

Misure di risultato secondarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Accuratezza diagnostica finale (top-1) con vs senza supporto IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Per ciascun partecipante, proporzione di vignette in cui la diagnosi principale corretta è inclusa nelle diagnosi finali top-1 del partecipante. Confrontare l'accuratezza finale top-1 tra il braccio AI (dopo i suggerimenti dell'IA) e il braccio di controllo (senza IA). Percentuale di casi diagnosticati correttamente (top-1).
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Variazione della precisione diagnostica top-3 prima e dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Nel braccio supportato dall'IA, i partecipanti forniscono prima una risposta iniziale (fino a tre diagnosi) senza suggerimenti dell'IA, poi vedono i suggerimenti generati dall'IA e possono rivedere la loro risposta una volta; non possono tornare a quel caso clinico in seguito. Per ciascun partecipante, gli investigatori calcolano la differenza nell'accuratezza delle prime tre diagnosi tra le risposte iniziali e finali in tutti i casi clinici completati.

Variazione in punti percentuali nell'accuratezza diagnostica delle prime tre diagnosi

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Variazione dell'accuratezza diagnostica top-1 prima vs dopo i suggerimenti dell'IA (solo braccio AI)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Nel braccio supportato dall'IA, i partecipanti forniscono prima una risposta iniziale (fino a tre diagnosi) senza suggerimenti dell'IA, poi vedono suggerimenti generati dall'IA e possono rivedere la loro risposta una volta; non possono tornare a quella vignetta in seguito. Per ciascun partecipante, i ricercatori calcolano la differenza nella precisione top-1 tra le risposte iniziali e finali in tutte le vignette completate.

Variazione in punti percentuali della precisione diagnostica Top-1

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Fiducia diagnostica (0-10) prima dei suggerimenti dell'IA: Braccio di controllo vs braccio IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

I partecipanti in entrambi i bracci valutano la propria fiducia (scala 0-10) nelle loro prime 3 proposte diagnostiche prima di qualsiasi suggerimento dell'IA.

Nel braccio IA, questa è la valutazione "pre-IA". Nel braccio di controllo, questa è l'unica valutazione di fiducia (poiché non viene mostrata alcuna IA).

I ricercatori confrontano la fiducia pre-IA tra i bracci, aggregata per tutte le vignette completate per partecipante.

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Fiducia diagnostica finale (0-10) dopo i suggerimenti dell'IA: Gruppo di controllo vs gruppo IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Fiducia diagnostica finale (scala 0-10) nella proposta diagnostica Top-3 tra tutte le vignette completate, confrontata tra i bracci.

Nel braccio IA, questa è la valutazione della fiducia post-IA. Nel braccio di controllo, questa è la stessa valutazione della fiducia (i partecipanti non ricevono suggerimenti IA).

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Cambiamento della fiducia diagnostica (0-10) prima vs dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Nel braccio di IA, i partecipanti forniscono valutazioni di confidenza (scala 0-10) per le loro prime 3 diagnosi sia prima che dopo aver visto i suggerimenti dell'IA.

Per ciascun partecipante, i ricercatori calcolano la variazione intra-participante (post-IA meno pre-IA) attraverso tutti i casi clinici completati.

Variazione del punteggio di confidenza (scala 0-10)

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Errore diagnostico indotto dall'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Tra le vignette completate in cui la diagnosi Top-1 iniziale del partecipante è corretta, proporzione per cui la diagnosi Top-1 finale diventa errata dopo i suggerimenti dell'IA.
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Cambiamento nelle prime 3 diagnosi dopo i suggerimenti dell'IA (solo braccio IA)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Tra le vignette completate nel braccio IA, la proporzione in cui la diagnosi Top-3 differisce tra le risposte pre-IA e post-IA.
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Top-3 accuratezza diagnostica: Tutte le risposte umane prima dell'IA vs accuratezza dell'IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Per ogni vignetta, l'accuratezza diagnostica Top-3 dei partecipanti umani prima di qualsiasi suggerimento dell'IA (combinando i partecipanti di entrambi i bracci dello studio nella loro fase pre-IA) viene confrontata con l'accuratezza diagnostica Top-3 del modello di IA per la stessa vignetta. L'Outcome riportato è la differenza di accuratezza, definita come accuratezza Top-3 dell'IA meno accuratezza Top-3 umana pre-IA, espressa in punti percentuali e calcolata a livello di vignetta su tutte le vignette completate.

Differenza in punti percentuali nell'accuratezza diagnostica Top-3

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Top-3 accuratezza diagnostica: Risposte finali umane dopo AI vs accuratezza AI (solo braccio AI)
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Per ogni vignetta completata nel braccio supportato dall'IA, l'accuratezza diagnostica Top-3 dei partecipanti umani dopo aver visualizzato i suggerimenti dell'IA viene confrontata con l'accuratezza diagnostica Top-3 del modello di IA.

(L'accuratezza Top-3 è una singola misura) L'Outcome riportato è la differenza di accuratezza, definita come accuratezza Top-3 dell'IA meno accuratezza Top-3 umana post-IA, espressa in punti percentuali e calcolata a livello di vignetta attraverso tutte le vignette completate nel braccio IA.

Differenza in punti percentuali nell'accuratezza diagnostica Top-3 tra IA e umano

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Tempo di completamento per ogni vignetta con e senza supporto dell'IA
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Per ogni vignetta, la piattaforma registra il tempo dall'apertura della vignetta all'invio della risposta. Nel braccio di controllo, viene registrato un singolo tempo di completamento per ogni vignetta. Nel braccio supportato dall'IA, il tempo di completamento viene registrato prima della visualizzazione dei suggerimenti dell'IA e nuovamente dopo la visualizzazione dei suggerimenti dell'IA. L'Outcome riporta la differenza nel tempo di completamento tra i bracci dello studio, espressa in secondi e calcolata su tutte le vignette completate.

Secondi (differenza nel tempo di completamento)

Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Proporzione di vignette assegnate completate
Lasso di tempo: Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).
Per ciascun partecipante, la proporzione dei 10 vignetti completati entro il periodo di studio, confrontata tra i gruppi.
Dal primo vignetto risposto fino alla fine dello studio (fino a 12 mesi).

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Effettivo)

20 novembre 2025

Completamento primario (Stimato)

31 ottobre 2026

Completamento dello studio (Stimato)

31 dicembre 2026

Date di iscrizione allo studio

Primo inviato

19 novembre 2025

Primo inviato che soddisfa i criteri di controllo qualità

12 gennaio 2026

Primo Inserito (Effettivo)

20 gennaio 2026

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

20 gennaio 2026

Ultimo aggiornamento inviato che soddisfa i criteri QC

12 gennaio 2026

Ultimo verificato

1 gennaio 2026

Maggiori informazioni

Termini relativi a questo studio

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

No

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

No

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Sottoscrivi