- ICH GCP
- Registro degli studi clinici negli Stati Uniti
- Sperimentazione clinica NCT07328815
Mitigare il Bias di Automazione nel Ragionamento Diagnostico Medico-LLM Utilizzando Nudges Comportamentali
Mitigare il Bias di Automazione nel Ragionamento Diagnostico Medico-LLM Utilizzando Nudging Comportamentale
L'obiettivo di questo studio controllato randomizzato è valutare se i suggerimenti comportamentali possano ridurre il bias di automazione, l'accettazione acritica dell'output automatizzato, nei medici che utilizzano modelli linguistici di grandi dimensioni (LLM) come ChatGPT-5.1 per il processo decisionale clinico.
La domanda principale che intende rispondere è: Un intervento di suggerimento comportamentale a doppio meccanismo (ancoraggio dell'accuratezza di base più segnali di confidenza codificati a colori specifici per caso) riduce l'accettazione acritica da parte dei medici di raccomandazioni LLM errate?
I ricercatori confronteranno i medici che ricevono raccomandazioni LLM insieme a un suggerimento comportamentale con quelli che ricevono raccomandazioni LLM senza il suggerimento per valutare se il suggerimento riduce il bias di automazione.
I partecipanti:
- Valuteranno sei vignette cliniche accompagnate da raccomandazioni generate da LLM (metà contenenti errori deliberati e clinicamente significativi).
- Gruppo di controllo: Potranno visualizzare le raccomandazioni LLM in formato standard senza il suggerimento.
- Gruppo di trattamento: Potranno visualizzare l'accuratezza diagnostica di ChatGPT su dataset medici standard come ancoraggio iniziale, quindi ricevere segnali di confidenza codificati a colori insieme a ogni raccomandazione (es. rosso per bassa confidenza).
- Vedranno le loro risposte valutate da revisori in cieco utilizzando una rubrica di valutazione sviluppata da esperti per rilevare l'accettazione acritica di informazioni errate.
Panoramica dello studio
Stato
Condizioni
Intervento / Trattamento
Descrizione dettagliata
Il bias dell'automazione rappresenta una sfida critica nella pratica clinica moderna, specialmente con l'integrazione sempre più diffusa degli strumenti di intelligenza artificiale (IA) nei flussi di lavoro sanitari. Questo fenomeno cognitivo descrive la tendenza dei clinici a favorire i suggerimenti dei sistemi automatizzati di supporto alle decisioni, anche quando questi suggerimenti sono errati. Poiché modelli linguistici di grandi dimensioni (LLM) come ChatGPT-5.1 stanno guadagnando terreno in ambito medico, il loro potenziale di ridurre gli errori e migliorare l'efficienza deve essere valutato rispetto a una preoccupazione significativa: questi modelli non hanno una validazione medica rigorosa e potrebbero amplificare i bias cognitivi esistenti attraverso raccomandazioni scorrette o fuorvianti.
L'emergere del bias dell'automazione in contesti medici riflette una complessa interazione di fattori ambientali e psicologici. I vincoli temporali in ambienti clinici ad alto volume creano pressione ad accettare le raccomandazioni generate dall'IA senza un'adeguata verifica. Gli incentivi finanziari che privilegiano l'efficienza rispetto alla completezza possono ulteriormente scoraggiare la valutazione critica necessaria per un solido giudizio clinico. L'affaticamento cognitivo durante turni prolungati riduce la capacità dei medici di mantenere un pensiero analitico sostenuto. Queste pressioni interagiscono con meccanismi psicologici tra cui la diffusione della responsabilità, l'eccessiva fiducia nelle soluzioni tecnologiche e lo scarico cognitivo, creando collettivamente condizioni in cui l'accettazione acritica delle raccomandazioni generate dall'IA diventa più probabile.
Questo studio randomizzato controllato valuta l'efficacia di un intervento di spinta comportamentale progettato per mitigare il bias dell'automazione tra i medici che utilizzano raccomandazioni diagnostiche generate da LLM. L'obiettivo primario è determinare se questo intervento migliora i punteggi di performance del ragionamento diagnostico nella valutazione di vignette cliniche che includono deliberatamente raccomandazioni LLM errate. Obiettivi secondari includono valutare se il livello di esperienza del medico, il genere e la precedente esperienza con LLM moderano l'efficacia dell'intervento, determinando l'efficacia differenziale per vignette con diversi segnali di confidenza.
Questo studio utilizza uno studio randomizzato controllato in singolo cieco con due bracci paralleli. I partecipanti saranno assegnati casualmente 1:1 al braccio di intervento o di controllo. Per eliminare la variabilità derivante da differenze nelle abilità di prompt, i partecipanti non interagiranno direttamente con un'interfaccia LLM in tempo reale. Invece, tutti i partecipanti utilizzeranno una piattaforma web personalizzata che mostra vignette cliniche con raccomandazioni LLM pre-generate, garantendo contenuto LLM identico per ogni vignetta.
Tutti i partecipanti valuteranno sei vignette cliniche durante una singola sessione supervisionata della durata di circa 75 minuti. Tre vignette conterranno deliberatamente errori di ragionamento clinico nelle raccomandazioni LLM, mentre tre conterranno raccomandazioni corrette. Le vignette saranno presentate in ordine randomizzato per prevenire il rilevamento di pattern.
I partecipanti al braccio di controllo valuteranno vignette cliniche con raccomandazioni diagnostiche LLM generate da ChatGPT presentate in formato testuale standard neutro senza informazioni contestuali aggiuntive. I partecipanti al braccio di intervento valuteranno le stesse vignette insieme a una spinta comportamentale. Questo intervento consiste in due segnali cognitivi sincronizzati: (1) un segnale di ancoraggio che mostra l'accuratezza diagnostica di base di ChatGPT su dataset medici standard nella parte superiore del pannello dell'interfaccia, ancorando esplicitamente le aspettative alla fallibilità del modello, e (2) un segnale di attenzione selettiva che mostra la raccomandazione LLM insieme a un segnale di confidenza a colori generato attraverso una valutazione ensemble: tre LLM all'avanguardia indipendenti (Claude Sonnet 4.5, Gemini 2.5 Pro Thinking e GPT-5.1) forniscono ciascuno valutazioni di confidenza per la raccomandazione, e la confidenza media determina il colore del segnale per mitigare la scorretta calibrazione di un singolo modello.
I segnali di confidenza a colori sono categorizzati in tre livelli distinti basati sulla confidenza media dell'ensemble rispetto all'accuratezza diagnostica di base. I segnali rossi vengono attivati quando la confidenza media scende al di sotto dell'accuratezza di base stabilita di ChatGPT, segnalando esplicitamente casi ad alta incertezza che richiedono uno scrutinio critico maggiore. I segnali arancioni indicano che mentre la confidenza media supera la media di base, rimane al di sotto del 100%, segnalando la necessità di una continua vigilanza clinica e l'evitamento del compiacimento. Infine, i segnali verdi sono riservati per istanze di consenso ensemble al 100%; tuttavia, anche a questo livello di confidenza, rimangono presenti avvertenze standard di sicurezza IA per proteggere dall'eccessivo affidamento sull'output del sistema.
Ai partecipanti saranno presentate sei vignette cliniche specificamente progettate per misurare il bias dell'automazione, provenienti e modificate da casi reali che rappresentano una gamma di difficoltà diagnostiche e specialità mediche comuni. Ogni vignetta segue un formato standardizzato che include motivo di consulto, anamnesi della malattia attuale, anamnesi medica/sociale/familiare rilevante, reperti dell'esame obiettivo e risultati di laboratorio iniziali.
L'esito primario è il Punteggio di Performance del Ragionamento Diagnostico, un punteggio percentuale composito basato su una rubrica strutturata che valuta: qualità delle diagnosi differenziali, reperti a supporto, reperti contrari, accuratezza della diagnosi finale e appropriatezza dei passi successivi. Gli esiti secondari includono l'accuratezza della diagnosi di prima scelta (errata, parzialmente corretta o corretta). Tutte le risposte saranno valutate da revisori in cieco utilizzando la rubrica di valutazione.
Tipo di studio
Iscrizione (Stimato)
Fase
- Non applicabile
Contatti e Sedi
Contatto studio
- Nome: Ihsan Ayyub Qazi, PhD
- Numero di telefono: 8368 +923233333766
- Email: ihsan.qazi@lums.edu.pk
Backup dei contatti dello studio
- Nome: Ayesha Ali, PhD
- Numero di telefono: 8235 +923419494940
- Email: ayeshaali@lums.edu.pk
Luoghi di studio
-
-
Punjab Province
-
Lahore, Punjab Province, Pakistan, 54792
- Reclutamento
- Lahore University of Management Sciences
-
Investigatore principale:
- Ihsan Ayyub Qazi, PhD
-
Contatto:
- Ayesha Ali, PhD
- Numero di telefono: 8235 +923419494940
- Email: ayeshaali@lums.edu.pk
-
Contatto:
- Ihsan Ayyub Qazi, PhD
- Numero di telefono: +923233333766
- Email: ihsan.qazi@lums.edu.pk
-
-
Criteri di partecipazione
Criteri di ammissibilità
Età idonea allo studio
- Bambino
- Adulto
- Adulto più anziano
Accetta volontari sani
Descrizione
Criteri di inclusione:
- Medici registrati in via definitiva o provvisoria presso il Consiglio Medico e Odontoiatrico del Pakistan (PMDC).
- Superamento dell'esame di Laurea in Medicina e Chirurgia (MBBS). Il titolo equivalente all'MBBS negli Stati Uniti e in Canada è il Doctor of Medicine (MD).
- I partecipanti devono aver completato un programma di formazione strutturato sull'uso di ChatGPT (o di un modello linguistico di grandi dimensioni comparabile), per un totale di almeno 10 ore di istruzione. Il programma deve includere esercitazioni pratiche relative agli aspetti chiave dei LLM, in particolare l'ingegneria dei prompt e la valutazione dei contenuti.
Criteri di esclusione:
- Qualsiasi altro Medico Registrato (in via definitiva o provvisoria) con PMDC (ad esempio, professionisti con Laurea in Chirurgia Odontoiatrica o BDS).
Piano di studio
Come è strutturato lo studio?
Dettagli di progettazione
- Scopo principale: Diagnostico
- Assegnazione: Randomizzato
- Modello interventistico: Assegnazione parallela
- Mascheramento: Separare
Armi e interventi
Gruppo di partecipanti / Arm |
Intervento / Trattamento |
|---|---|
|
Comparatore attivo: Raccomandazioni di ChatGPT insieme a un Incentivo Comportamentale
I partecipanti valuteranno sei vignette cliniche.
Durante la sperimentazione, avranno accesso alle raccomandazioni cliniche di uno specifico LLM disponibile in commercio (ChatGPT) oltre alle risorse diagnostiche convenzionali.
Le raccomandazioni dell'LLM per tre vignette conterranno deliberatamente informazioni diagnostiche errate e per tre vignette conterranno raccomandazioni accurate.
I casi verranno presentati in ordine casuale.
I partecipanti di questo braccio riceveranno un suggerimento comportamentale integrato nell'interfaccia delle raccomandazioni dell'LLM che presenta due segnali cognitivi sincronizzati quando il pannello LLM viene espanso: (1) un segnale di ancoraggio che mostra l'accuratezza diagnostica di base di ChatGPT su set di dati medici standard nella parte superiore del pannello per impostare aspettative realistiche prima dell'intervento del segnale situato immediatamente sotto, che mostra le raccomandazioni dell'LLM insieme a un segnale di confidenza specifico per il caso con codifica a colori.
|
I partecipanti nel gruppo di trattamento riceveranno un intervento di spinta comportamentale integrato nell'interfaccia di raccomandazioni del LLM che presenta due segnali cognitivi sincronizzati quando il pannello LLM è espanso: (1) un segnale di ancoraggio che mostra l'accuratezza diagnostica di base di ChatGPT su dataset medici standard nella parte superiore del pannello per stabilire aspettative realistiche prima di visualizzare la raccomandazione specifica, e (2) un segnale di attenzione selettiva posizionato immediatamente sotto, che mostra la raccomandazione del LLM insieme a un segnale di confidenza specifico per il caso e codificato a colori.
Questo segnale è categorizzato come rosso quando la confidenza media dell'ensemble scende al di sotto dell'accuratezza di base stabilita, segnalando casi ad alta incertezza che richiedono una valutazione critica; arancione quando la confidenza raggiunge o supera la linea di base ma rimane inferiore al 100%, inteso a prevenire il compiacimento e mantenere un controllo clinico attivo; e verde per un consenso dell'ensemble al 100%, sebbene si applichino comunque avvertenze cautelative standard per proteggersi.
|
|
Nessun intervento: Raccomandazioni ChatGPT senza un Incentivo Comportamentale
I partecipanti valuteranno sei vignette cliniche.
Durante lo studio, avranno accesso alle raccomandazioni cliniche di un LLM specifico e disponibile in commercio (ChatGPT) oltre alle risorse diagnostiche convenzionali.
Le raccomandazioni dell'LLM per tre vignette conterranno deliberatamente informazioni diagnostiche errate.
I casi verranno presentati in ordine casuale.
I partecipanti in questo braccio non riceveranno alcun incoraggiamento comportamentale.
|
Cosa sta misurando lo studio?
Misure di risultato primarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Punteggio di accuratezza del ragionamento diagnostico
Lasso di tempo: Valutato in un singolo momento per ogni caso, durante la sessione programmata di valutazione del ragionamento diagnostico, che si svolge tra 0 e 5 giorni dopo l'arruolamento del partecipante.
|
L'esito primario sarà la percentuale di risposte corrette per ciascun caso, che varia da 0 a 100%, dove punteggi più alti indicano una migliore performance diagnostica.
Per ogni caso, ai partecipanti verrà chiesto di fornire le loro tre diagnosi principali, i reperti che supportano ciascuna diagnosi e i reperti che si oppongono a ciascuna diagnosi.
Per ogni diagnosi plausibile, i partecipanti riceveranno 1 punto.
Anche i reperti a supporto della diagnosi e i reperti contrari alla diagnosi saranno valutati in base alla correttezza, con 1 punto per ogni risposta corretta.
Ai partecipanti verrà quindi chiesto di indicare la loro diagnosi principale che ritengono più probabile, guadagnando 9 punti per una risposta ragionevole e 18 punti per la risposta più accurata.
Infine, ai partecipanti verrà chiesto di nominare fino a 3 passaggi successivi per valutare ulteriormente il paziente, con 0,5 punto assegnato per una risposta parzialmente corretta e 1 punto per una risposta completamente corretta.
L'esito primario verrà confrontato a livello di caso tra i gruppi randomizzati.
|
Valutato in un singolo momento per ogni caso, durante la sessione programmata di valutazione del ragionamento diagnostico, che si svolge tra 0 e 5 giorni dopo l'arruolamento del partecipante.
|
Misure di risultato secondarie
Misura del risultato |
Misura Descrizione |
Lasso di tempo |
|---|---|---|
|
Punteggio di precisione della diagnosi di prima scelta
Lasso di tempo: Valutato in un unico momento per ciascun caso, durante la sessione programmata di valutazione del ragionamento diagnostico, che si svolge tra 0 e 5 giorni dopo l'arruolamento del partecipante.
|
L'esito secondario misurerà la performance dei partecipanti nell'identificare la diagnosi più probabile per ogni caso clinico.
Dopo aver valutato ogni caso, i partecipanti selezioneranno la loro singola diagnosi più probabile, che sarà valutata secondo una Scala di Accuratezza Diagnostica a Tre Livelli predefinita: 18 punti per la diagnosi più accurata, 9 punti per un'alternativa clinicamente ragionevole e 0 punti per una diagnosi errata.
Per ogni partecipante, un Punteggio di Accuratezza della Diagnosi di Scelta Principale è calcolato come (punti totali guadagnati ÷ punti massimi possibili) × 100, ottenendo un intervallo 0-100% in cui punteggi più alti indicano una maggiore accuratezza diagnostica.
Questo punteggio percentuale sarà confrontato a livello di caso tra i gruppi randomizzati per quantificare l'impatto del bias di automazione sul processo decisionale diagnostico.
|
Valutato in un unico momento per ciascun caso, durante la sessione programmata di valutazione del ragionamento diagnostico, che si svolge tra 0 e 5 giorni dopo l'arruolamento del partecipante.
|
Collaboratori e investigatori
Investigatori
- Investigatore principale: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
- Investigatore principale: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
- Investigatore principale: Ali Zafar Sheikh, MBBS, Lahore General Hospital
- Investigatore principale: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
- Investigatore principale: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)
Studiare le date dei record
Studia le date principali
Inizio studio (Effettivo)
Completamento primario (Stimato)
Completamento dello studio (Stimato)
Date di iscrizione allo studio
Primo inviato
Primo inviato che soddisfa i criteri di controllo qualità
Primo Inserito (Effettivo)
Aggiornamenti dei record di studio
Ultimo aggiornamento pubblicato (Effettivo)
Ultimo aggiornamento inviato che soddisfa i criteri QC
Ultimo verificato
Maggiori informazioni
Termini relativi a questo studio
Parole chiave
Termini MeSH pertinenti aggiuntivi
Altri numeri di identificazione dello studio
- LUMS-IRB-0412/12192025/IAQ-FWA
Piano per i dati dei singoli partecipanti (IPD)
Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?
Informazioni su farmaci e dispositivi, documenti di studio
Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti
Studia un dispositivo regolamentato dalla FDA degli Stati Uniti
Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .
Prove cliniche su Intervento di Spinta Comportamentale
-
University of PittsburghCompletatoDistrofia muscolare di DuchenneStati Uniti
-
Sarah MorrowLawson Health Research InstituteCompletato
-
Network for Engineering and Economics Research...CompletatoContraccezione | Anemia da carenza di ferro della gravidanza | Cura prenatale | Assistenza postnataleIndia
-
Sun Yat-sen UniversityNon ancora reclutamentoFibrillazione atriale (FA)Cina
-
University of PennsylvaniaCompletatoMalattia criticaStati Uniti
-
Assuta Hospital SystemsTel Aviv UniversityCompletato
-
University of ZurichETH Zurich (Switzerland)Reclutamento
-
Weill Medical College of Cornell UniversityReclutamentoDepressione perinatale | Ansia perinataleStati Uniti
-
Icahn School of Medicine at Mount SinaiNYC Health + HospitalsCompletato
-
Rio de Janeiro State UniversityUniversity of Copenhagen; Oswaldo Cruz Foundation; Universidade Federal do Rio...Ritirato