- ICH GCP
- US Clinical Trials Registry
- Klinisk forsøg NCT05272189
Projekt 3 Eksempel: Human-AI Collaboration Tester (HAICT) Exp. 7
Studieoversigt
Status
Betingelser
Intervention / Behandling
Detaljeret beskrivelse
Denne tekst er teksten til præregistreringen til HAICT 7-eksperimentet som beskrevet i Open Science Framework. https://osf.io/hngu4/
BEMÆRK: Denne undersøgelse er repræsentativ for undersøgelser udført i projekt 3 af denne bevilling. Der er flere eksperimenter i bundtet af eksperimenter repræsenteret af projekt 3, men det er ikke muligt at registrere et bundt af undersøgelser på CT.gov.
BEMÆRK: Da pronomenkommentaren er vejledende, lader vi den stå indtil videre.
Human-AI Collaboration Tester (HAICT) Exp. 7 (let redigeret fra OSF)
Dataindsamling. Er der allerede indsamlet data til denne undersøgelse? (Ja Nej)
Ja
- Hypotese. Hvad er hovedspørgsmålet, der bliver stillet eller hypotesen, der testes i denne undersøgelse?
Baggrund: I en række søgeeksperimenter, både grundlæggende og kliniske, har dataene været i overensstemmelse med en situation, hvor variabiliteten af signalet (eller målet) er større end variabiliteten af støjen (distraktionerne). Det klassiske tegn på dette er en zROC-funktion med en hældning < 1 - typisk omkring 0,6. En hældning på 1,0 indikerer en 2AFC-opgave med lige varians. For HAICT-opgaven, som vi har testet, ville vi forvente lige varians, men vi synes, det ville være værd at tjekke, så vi systematisk vil variere prævalensen, hvilket vil ændre kriteriet. Det vil feje en ROC-kurve ud, som vi kan undersøge.
Vi vil også teste Second Reader faux-AI for at afgøre, om lav prævalens gør Second Reader værre.
- (H1): Vi forventer at gentage opdagelsen af, at menneskelige kriterier bliver mere konservative, efterhånden som prævalensen falder.
- (H2): Vi forudsiger, at hældningen af den resulterende zROC vil være 1,0.
(H3): Vi antager, at lav prævalens vil gøre Second Reader AI mindre effektiv, fordi den positive prædiktive værdi af dens kommentarer vil være lav.
Afhængig variabel. Beskriv de(n) nøgleafhængige variable(r), der specificerer, hvordan de vil blive målt.
De vigtigste afhængige variabler af interesse er nøjagtighed (og signaldetektionsderivaterne af nøjagtighed, d' og c), reaktionstid og subjektive vurderinger på undersøgelsen efter hver blok.
- Betingelser. Hvor mange og hvilke betingelser vil deltagerne blive tildelt?
Denne serie af eksperimenter undersøger, hvordan ændring af input fra en simuleret AI kan påvirke de beslutninger, der træffes af menneskelige observatører i en to-alternativ tvangsvalgsopgave (som beslutningen om at tilbagekalde en kvinde til yderligere undersøgelse i mammografi). Vi har udviklet et paradigme kaldet Human-AI Collaboration Tester (HAICT), der giver mulighed for effektiv test af interaktioner mellem et menneske og en simuleret AI.
Observatørernes opgave under alle forhold er at give en 2AFC-beslutning om, hvorvidt en stimulus er "dårlig" eller "ikke dårlig." For at bruge sprog, der groft efterligner en medicinsk diagnose, omtales hver stimulus som et "tilfælde". Observatører bliver bedt om at træffe en 2AFC-beslutning om arrays af farvede former. Afgørelsen træffes ud fra sagens overvejende farve. Antallet af elementer i hver farve er trukket fra en af to normalfordelinger, en for positive (dårlige) stimuli og den anden for negative (ikke dårlige) stimuli.
Resultaterne fra tidligere HAICT-eksperimenter (3 og 4) viste, at menneskelig præstation i Second Reader-tilstanden falder signifikant ved lav prævalens. Ydeevnen i Second Reader-tilstanden var bedre end baseline, når prævalensen af dårlige tilfælde var 50 %, men var signifikant dårligere end baseline, når prævalensen kun var 10 %. I dette eksperiment manipulerer vi forekomsten af "dårlige" tilfælde i Second Reader og Baseline-betingelser. Fire forskellige prævalensrater vil blive testet - 10 %, 33 %, 67 % og 90 %. Observatører vil fuldføre 8 blokke (2 AI-regler x 4 prævalensrater), og blokrækkefølgen er tilfældig.
AI-regler, der skal testes:
- Baseline - Ingen AI-input. Observer klassificerer hvert tilfælde som "dårligt" eller "ikke" dårligt for sig selv.
Anden læser - Observatøren træffer en første beslutning om hver sag. AI'en klassificerer lydløst stimuli ved hjælp af et konservativt kriterium (c = 0,5). Logikken for det konservative kriterium er, at den anden læser bliver brugt til at skære ned på falske positive svar, og det er derfor hensigten at stille spørgsmålstegn ved positive menneskelige svar, der kan være marginale. Hvis observatøren og AI er uenige, informerer AI den menneskelige observatør. Observatøren får derefter en chance for enten at ændre sit svar eller gå med sin første mening.
Som i forsøg 1-5 er AI d-prime fastsat til 2,2. Feedback er kendt for at øge prævalenseffekten, så feedback vil blive givet både i praksis og testforsøgene. Observatører vil gennemføre 20 øvelsesforsøg og 200 testforsøg i hver blok. Umiddelbart efter hver blok er afsluttet, vil observatører blive vist en oversigt over deres præstationer. Efter Second Reader-blokkene vil de også blive bedt om at besvare tre subjektive spørgsmål om anvendeligheden af AI (se "Filer" for flere detaljer).
Analyser. Angiv præcis, hvilke analyser du vil foretage for at undersøge hovedspørgsmålet/hypotesen.
Først opsummerer vi antallet af hits, sande negativer, misser og falske alarmer i hver blok. Ud fra dette kan vi beregne nøjagtigheden, den positive prædiktive værdi, følsomheden (d-prime) og kriteriet for hver observatør under hver af de forskellige forhold. Givet mål for ydeevne ved 4 prævalensniveauer, kan vi estimere ROC-kurven (pHit x pFA) og zROC-funktionen (zHit x zFA). Vi vil teste hypotesen om, at hældningen af zROC er lig med 1 (konsekvensen af en lige varians 2AFC opgave).
Flere analyser. Nogen sekundære analyser?
Vi vil se på, om observatørernes subjektive meninger om AI er korreleret med variabler såsom den empiriske d-prime eller den positive prædiktive værdi.
Prøvestørrelse. Hvor mange observationer vil der blive indsamlet, eller hvad vil bestemme stikprøvestørrelsen? Ingen grund til at begrunde beslutningen, men vær præcis om, præcis hvordan antallet vil blive bestemt.
Vi tester 12 observatører. Dette er i overensstemmelse med prøvestørrelserne fra tidligere eksperimenter.
- Andet. Er der andet, du gerne vil forhåndstilmelde? (f.eks. dataekskluderinger, variabler indsamlet til udforskningsformål, usædvanlige analyser planlagt?)
N/A
Undersøgelsestype
Tilmelding (Faktiske)
Fase
- Ikke anvendelig
Kontakter og lokationer
Studiesteder
-
-
Massachusetts
-
Boston, Massachusetts, Forenede Stater, 02215
- Visual Attention Lab / Brigham and Women's Hospital
-
-
Deltagelseskriterier
Berettigelseskriterier
Aldre berettiget til at studere
Tager imod sunde frivillige
Beskrivelse
Inklusionskriterier:
- - Alle er velkomne til at tilmelde sig online
Ekskluderingskriterier:
- Skal bestå Ishihara farvesynsscreeningstest
- 20/25 syn (med korrektion)
Studieplan
Hvordan er undersøgelsen tilrettelagt?
Design detaljer
- Primært formål: Grundvidenskab
- Tildeling: N/A
- Interventionel model: Enkelt gruppeopgave
- Maskning: Ingen (Åben etiket)
Våben og indgreb
Deltagergruppe / Arm |
Intervention / Behandling |
|---|---|
|
Eksperimentel: Eksperiment
Alle deltagere testes under alle betingelser i dette eksperiment.
|
I dette eksperiment træffer deltageren under nogle forhold deres beslutning i nærværelse af information om en simuleret beslutning om kunstig intelligens.
Den hyppighed, hvormed mål præsenteres, varierer fra 10 % til 90 %
Andre navne:
|
Hvad måler undersøgelsen?
Primære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
D'
Tidsramme: Data indsamles inden for en session på omkring en time.
|
D' (d-prime) er signaldetektionsteoriens mål for præstationsniveauet på en opgave.
Det beregnes ved at finde andelen af sandt positive responser =(sandt positive forsøg)/(sandt positive + falsk negative forsøg) = p(TP) og ved at finde andelen af falsk positive responser =(falsk positive forsøg)/(falsk positive + sandt negative forsøg) = p(FP).
Disse værdier transformeres til 'z-scorer' (for eksempel ved brug af NORMSINV i Excel til at beregne den inverse standardnormalfordeling).
D' defineres som Z(TP)-Z(FP).
Dens interval er fra 0 for tilfælde hvor intet signal kan skelnes fra støjen, til ~4,0.
Den øvre grænse er ikke defineret, men 4 ville betyde, at en observatør er stort set perfekt til at skelne signal fra støj.
|
Data indsamles inden for en session på omkring en time.
|
|
Kriterium
Tidsramme: Data indsamles i en session på omkring en time.
|
Kriteriet, ligesom D' (se ovenfor), beregnes ud fra z(TP) og z(FP).
Kriterium ( c ) = (z(TP)+z(FP))/-2.
En værdi på nul betyder, at observatøren er lige tilbøjelig til at give et positivt (f.eks. 'target present') svar som et negativt (fra værende) svar.
Positive værdier betyder, at observatøren med større sandsynlighed siger "fra værende" (et "konservativt" kriterium).
Negative værdier betyder, at observatøren med større sandsynlighed siger "til stede" (et "liberalt" kriterium).
Liberalt og konservativt har ingen politiske konnotationer i denne sammenhæng.
Kriterieværdier falder næsten altid mellem -2 og 2.
|
Data indsamles i en session på omkring en time.
|
Sekundære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Reaktionstid
Tidsramme: Data indsamles i en session på omkring en time.
|
Dette er et mål for, hvor lang tid det tager at give et svar.
|
Data indsamles i en session på omkring en time.
|
Samarbejdspartnere og efterforskere
Sponsor
Samarbejdspartnere
Efterforskere
- Ledende efterforsker: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Datoer for undersøgelser
Studer store datoer
Studiestart (Faktiske)
Primær færdiggørelse (Faktiske)
Studieafslutning (Faktiske)
Datoer for studieregistrering
Først indsendt
Først indsendt, der opfyldte QC-kriterier
Først opslået (Faktiske)
Opdateringer af undersøgelsesjournaler
Sidste opdatering sendt (Faktiske)
Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier
Sidst verificeret
Mere information
Begreber relateret til denne undersøgelse
Nøgleord
Yderligere relevante MeSH-vilkår
Andre undersøgelses-id-numre
- 2007P000646-B
- R01CA207490 (U.S. NIH-bevilling/kontrakt)
Plan for individuelle deltagerdata (IPD)
Planlægger du at dele individuelle deltagerdata (IPD)?
IPD-planbeskrivelse
IPD-delingstidsramme
IPD-delingsadgangskriterier
IPD-deling Understøttende informationstype
- STUDY_PROTOCOL
- SAP
- ICF
Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter
Studerer et amerikansk FDA-reguleret lægemiddelprodukt
Studerer et amerikansk FDA-reguleret enhedsprodukt
Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .
Kliniske forsøg med Beslutningstagning
-
Jiawei JiangRekruttering
-
Iaso Maternity Hospital, Athens, GreeceAfsluttet
-
Medway NHS Foundation TrustAfsluttetClinical Decision Support System (CDSS)Det Forenede Kongerige
-
Kaohsiung Medical University Chung-Ho Memorial...RekrutteringClinical Decision Support SystemTaiwan
-
Beijing Anzhen HospitalAktiv, ikke rekrutterendeAkut myokardieinfarkt | Clinical Decision Support System | Store sprogmodellerKina
-
University of NebraskaAfsluttetBalance Board | Trail Making TaskForenede Stater
-
Prof.dr Carin (C.C.D.) van der RijtNoordwest Ziekenhuisgroep; Rijnstate Hospital; Ikazia Hospital, Rotterdam; Laurens... og andre samarbejdspartnereAfsluttetLivskvalitet | Palliativ pleje | Håndtering af medicinterapi | Terminalpleje | Clinical Decision Support System (CDSS)Holland
-
Turkish Ministry of Health Izmir Teaching HospitalUkendtAkut koronarsyndrom | Clinical Decision Support SystemKalkun
-
Keck School of Medicine of USCAIDS Healthcare Foundation; Los Angeles General Medical CenterIkke rekrutterer endnuAntiretroviral terapi, meget aktiv | HIV (Human Immunodeficiency Virus) | Personlig medicin | Clinical Decision Support System (CDSS) | AIDS (Acquired Immune Deficiency Syndrome) | INDIVIDUALISERET TERAPI | PræcisionsmedicinForenede Stater
-
National University, RwandaUniversity of Pittsburgh; Brown University; Centers for Disease Control and... og andre samarbejdspartnereUkendtClinical Decision Support System | HIV/AIDS og infektioner | Elektroniske lægejournalerRwanda