Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Progetto 3 Esempio: Human-AI Collaboration Tester (HAICT) Esp. 7

29 dicembre 2025 aggiornato da: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Lo studio fa parte di un "pacchetto" di esperimenti che costituiscono il Progetto Tre di una sovvenzione del National Eye Institute. Il terzo progetto include una serie di esperimenti che indagano su come la modifica dell'input da un'IA simulata può influenzare le decisioni prese dagli osservatori umani in un compito di scelta forzata a due alternative (come la decisione di richiamare una donna per un ulteriore esame in mammografia). HAICT 7, l'esperimento qui descritto, indaga su come il cambiamento della prevalenza influisca sulle prestazioni umane quando l'IA viene utilizzata come secondo lettore.

Panoramica dello studio

Descrizione dettagliata

Questo testo è il testo della pre-registrazione per l'esperimento HAICT 7 come descritto nell'Open Science Framework. https://osf.io/hngu4/

NOTA: Questo studio è rappresentativo degli studi condotti nel Progetto 3 di questa sovvenzione. Sono presenti più esperimenti nel pacchetto di esperimenti rappresentato dal Progetto 3, ma non è possibile registrare un pacchetto di studi su CT.gov.

NOTA: poiché il commento del pronome è di avviso, lo lasceremo per ora.

Tester di collaborazione uomo-intelligenza artificiale (HAICT) Esp. 7 (leggermente modificato da OSF)

  1. Raccolta dati. Sono già stati raccolti dati per questo studio? (Si No)

  2. Ipotesi. Qual è la domanda principale che viene posta o l'ipotesi che viene testata in questo studio?

Sfondo: In una varietà di esperimenti di ricerca, sia di base che clinici, i dati sono stati coerenti con una situazione in cui la variabilità del segnale (o bersaglio) è maggiore della variabilità del rumore (distrattori). Il segno classico di ciò è una funzione zROC con una pendenza < 1, tipicamente intorno a 0,6. Una pendenza di 1.0 è indicativa di un'attività 2AFC a varianza uguale. Per l'attività HAICT che abbiamo testato, ci aspetteremmo una varianza uguale, ma pensiamo che varrebbe la pena verificarla, quindi varieremo sistematicamente la prevalenza che cambierà il criterio. Ciò spazzerà fuori una curva ROC che possiamo esaminare.

Testeremo anche la finta intelligenza artificiale di Second Reader per determinare se la bassa prevalenza peggiora Second Reader.

  • (H1): Ci aspettiamo di replicare la scoperta che i criteri umani diventano più conservativi al diminuire della prevalenza.
  • (H2): Prevediamo che la pendenza dello zROC risultante sarà 1.0.
  • (H3): ipotizziamo che una bassa prevalenza renderà meno efficace l'IA di Second Reader perché il valore predittivo positivo dei suoi commenti sarà basso.

    1. Variabile dipendente. Descrivere le variabili dipendenti chiave specificando come saranno misurate.

      Le principali variabili dipendenti di interesse sono l'accuratezza (e le derivate dell'accuratezza del rilevamento del segnale, d' ec), il tempo di reazione e le valutazioni soggettive sull'indagine successiva a ciascun blocco.

    2. Condizioni. A quante e quali condizioni saranno assegnati i partecipanti?

Questa serie di esperimenti indaga su come la modifica dell'input da un'IA simulata possa influenzare le decisioni prese dagli osservatori umani in un compito di scelta forzata a due alternative (come la decisione di richiamare una donna per un ulteriore esame in mammografia). Abbiamo sviluppato un paradigma chiamato Human-AI Collaboration Tester (HAICT) che consente di testare in modo efficiente le interazioni tra un essere umano e un'IA simulata.

Il compito degli osservatori in tutte le condizioni è quello di dare una decisione 2AFC se uno stimolo è "cattivo" o "non cattivo". Per usare un linguaggio che imita approssimativamente una diagnosi medica, ogni stimolo viene chiamato "caso". Agli osservatori viene chiesto di prendere una decisione 2AFC sugli array di forme colorate. La decisione viene presa in base al colore predominante della custodia. Il numero di elementi di ciascun colore viene ricavato da una delle due distribuzioni normali, una per gli stimoli positivi (cattivi) e l'altra per gli stimoli negativi (non cattivi).

I risultati dei precedenti esperimenti HAICT (3 e 4) hanno mostrato che le prestazioni umane nella condizione di Second Reader diminuiscono significativamente a bassa prevalenza. Le prestazioni nella condizione Second Reader erano migliori del basale quando la prevalenza di casi gravi era del 50%, ma erano significativamente peggiori del basale quando la prevalenza era solo del 10%. In questo esperimento, manipoliamo la prevalenza di casi "cattivi" nelle condizioni Second Reader e Baseline. Saranno testati quattro diversi tassi di prevalenza: 10%, 33%, 67% e 90%. Gli osservatori completeranno 8 blocchi (2 regole AI x 4 tassi di prevalenza) e l'ordine dei blocchi è casuale.

Regole AI da testare:

  1. Linea di base: nessun input AI. L'osservatore classifica ogni caso come "cattivo" o "non" cattivo da solo.
  2. Secondo lettore - L'osservatore prende una decisione iniziale su ogni caso. L'intelligenza artificiale classifica silenziosamente gli stimoli utilizzando un criterio conservativo (c = 0,5). La logica per il criterio conservativo è che il secondo lettore viene utilizzato per ridurre le risposte false positive e quindi si intende mettere in discussione le risposte umane positive che potrebbero essere marginali. Se l'osservatore e l'IA non sono d'accordo, l'IA informa l'osservatore umano. All'osservatore viene quindi data la possibilità di modificare la propria risposta o di seguire la propria prima opinione.

    Come negli Esperimenti 1-5, l'AI d-prime è fissato a 2.2. È noto che il feedback aumenta l'effetto di prevalenza, quindi il feedback verrà fornito sia nella pratica che nelle prove di prova. Gli osservatori completeranno 20 prove pratiche e 200 prove di prova in ciascun blocco. Subito dopo il completamento di ogni blocco, agli osservatori verrà mostrato un riepilogo delle loro prestazioni. Dopo che il Secondo Lettore si sarà bloccato, verrà anche chiesto loro di rispondere a tre domande soggettive sull'utilità dell'IA (vedi "File" per maggiori dettagli).

  3. Analisi. Specifica esattamente quali analisi condurrai per esaminare la domanda/ipotesi principale.

    Innanzitutto, riassumiamo il numero di hit, veri negativi, miss e falsi allarmi in ciascun blocco. Da questo, possiamo calcolare l'accuratezza, il valore predittivo positivo, la sensibilità (d-prime) e il criterio per ciascun osservatore in ciascuna delle diverse condizioni. Date le misure di performance a 4 livelli di prevalenza, possiamo stimare la curva ROC (pHit x pFA) e la funzione zROC (zHit x zFA). Verificheremo l'ipotesi che la pendenza dello zROC sia uguale a 1 (la conseguenza di un compito 2AFC a varianza uguale).

  4. Altre analisi. Qualche analisi secondaria?

    Cercheremo di vedere se le opinioni soggettive degli osservatori sull'IA sono correlate con variabili come il d-prime empirico o il valore predittivo positivo.

  5. Misura di prova. Quante osservazioni verranno raccolte o cosa determinerà la dimensione del campione? Non c'è bisogno di giustificare la decisione, ma sii preciso su come verrà determinato esattamente il numero.

    Testeremo 12 osservatori. Ciò è coerente con le dimensioni del campione degli esperimenti precedenti.

  6. Altro. C'è qualcos'altro che vorresti pre-registrare? (ad esempio, esclusioni di dati, variabili raccolte a scopo esplorativo, analisi insolite pianificate?)

N / A

Tipo di studio

Interventistico

Iscrizione (Effettivo)

12

Fase

  • Non applicabile

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Luoghi di studio

    • Massachusetts
      • Boston, Massachusetts, Stati Uniti, 02215
        • Visual Attention Lab / Brigham and Women's Hospital

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

18 anni e precedenti (Adulto, Adulto più anziano)

Accetta volontari sani

Descrizione

Criterio di inclusione:

  • - Tutti sono invitati a iscriversi on line

Criteri di esclusione:

  • Deve superare il test di screening della visione dei colori di Ishihara
  • Visione 20/25 (con correzione)

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

  • Scopo principale: Scienza basilare
  • Assegnazione: N / A
  • Modello interventistico: Assegnazione di gruppo singolo
  • Mascheramento: Nessuno (etichetta aperta)

Armi e interventi

Gruppo di partecipanti / Arm
Intervento / Trattamento
Sperimentale: Sperimentare
Tutti i partecipanti sono testati in tutte le condizioni di questo esperimento.
In questo esperimento, in alcune condizioni, il partecipante prende la sua decisione in presenza di informazioni su una decisione di intelligenza artificiale simulata.
La frequenza con cui vengono presentati gli obiettivi varia dal 10% al 90%
Altri nomi:
  • Tasso base

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato
Misura Descrizione
Lasso di tempo
D'
Lasso di tempo: I dati vengono raccolti durante una sessione di circa un'ora.
D' (d-prime) è la misura della teoria del rilevamento del segnale del livello di prestazione in un compito. Viene calcolato determinando la proporzione di risposte veri positivi = (prove veri positivi)/(prove veri positivi + prove falsi negativi) = p(VP) e determinando la proporzione di risposte falsi positivi = (prove falsi positivi)/(prove falsi positivi + prove veri negativi) = p(FP). Questi valori vengono trasformati in 'z-score' (ad esempio, utilizzando NORMSINV in Excel per calcolare l'inverso della distribuzione normale standard). D' è definito come Z(VP)-Z(FP). La sua gamma va da 0 per i casi in cui nessun segnale può essere discriminato dal rumore, fino a circa 4.0. Il limite superiore non è definito, ma 4 significherebbe che un osservatore è essenzialmente perfetto nel discriminare il segnale dal rumore.
I dati vengono raccolti durante una sessione di circa un'ora.
Criterio
Lasso di tempo: I dati vengono raccolti durante una sessione di circa un'ora.
Il criterio, come D' (vedi sopra), è calcolato da z(TP) e z(FP). Criterio (c) = (z(TP)+z(FP))/-2. Un valore pari a zero significa che l'osservatore ha la stessa probabilità di dare una risposta positiva (ad es. 'bersaglio presente') quanto una negativa (assente). Valori positivi significano che l'osservatore è più propenso a dire "assente" (un criterio "conservativo"). Valori negativi significano che l'osservatore è più propenso a dire "presente" (un criterio "liberale"). In questo caso, liberale e conservativo non hanno connotazioni politiche. I valori del criterio quasi sempre rientrano tra -2 e 2.
I dati vengono raccolti durante una sessione di circa un'ora.

Misure di risultato secondarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Tempo di Reazione
Lasso di tempo: I dati vengono raccolti durante una sessione della durata di circa un'ora.
Questa è la misura di quanto tempo ci vuole per dare una risposta.
I dati vengono raccolti durante una sessione della durata di circa un'ora.

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Investigatori

  • Investigatore principale: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Effettivo)

1 gennaio 2020

Completamento primario (Effettivo)

1 agosto 2024

Completamento dello studio (Effettivo)

4 novembre 2025

Date di iscrizione allo studio

Primo inviato

18 febbraio 2022

Primo inviato che soddisfa i criteri di controllo qualità

28 febbraio 2022

Primo Inserito (Effettivo)

9 marzo 2022

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

20 gennaio 2026

Ultimo aggiornamento inviato che soddisfa i criteri QC

29 dicembre 2025

Ultimo verificato

1 dicembre 2025

Maggiori informazioni

Termini relativi a questo studio

Termini MeSH pertinenti aggiuntivi

Altri numeri di identificazione dello studio

  • 2007P000646-B
  • R01CA207490 (Sovvenzione/contratto NIH degli Stati Uniti)

Piano per i dati dei singoli partecipanti (IPD)

Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?

Descrizione del piano IPD

I dati grezzi anonimizzati saranno pubblicati sulla pagina OSF dell'esperimento e saranno disponibili su richiesta al PI.

Periodo di condivisione IPD

I materiali saranno disponibili quando richiesto

Criteri di accesso alla condivisione IPD

sostanzialmente illimitato

Tipo di informazioni di supporto alla condivisione IPD

  • STUDIO_PROTOCOLLO
  • LINFA
  • ICF

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

No

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

No

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Prove cliniche su Il processo decisionale

Prove cliniche su Secondo lettore simulato AI

Sottoscrivi