Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Projekt 3 Eksempel: Human-AI Collaboration Tester (HAICT) Exp. 7

29. december 2025 opdateret af: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Undersøgelsen er en del af et "bundt" af eksperimenter, der udgør projekt tre af en National Eye Institute-bevilling. Projekt tre omfatter en række eksperimenter, der undersøger, hvordan ændring af input fra en simuleret AI kan påvirke de beslutninger, der træffes af menneskelige observatører i en to-alternativ tvangsvalgsopgave (som beslutningen om at tilbagekalde en kvinde til yderligere undersøgelse i mammografi). HAICT 7, det her beskrevne eksperiment, undersøger, hvordan skiftende prævalens påvirker den menneskelige præstation, når AI bruges som en anden læser.

Studieoversigt

Detaljeret beskrivelse

Denne tekst er teksten til præregistreringen til HAICT 7-eksperimentet som beskrevet i Open Science Framework. https://osf.io/hngu4/

BEMÆRK: Denne undersøgelse er repræsentativ for undersøgelser udført i projekt 3 af denne bevilling. Der er flere eksperimenter i bundtet af eksperimenter repræsenteret af projekt 3, men det er ikke muligt at registrere et bundt af undersøgelser på CT.gov.

BEMÆRK: Da pronomenkommentaren er vejledende, lader vi den stå indtil videre.

Human-AI Collaboration Tester (HAICT) Exp. 7 (let redigeret fra OSF)

  1. Dataindsamling. Er der allerede indsamlet data til denne undersøgelse? (Ja Nej)

    Ja

  2. Hypotese. Hvad er hovedspørgsmålet, der bliver stillet eller hypotesen, der testes i denne undersøgelse?

Baggrund: I en række søgeeksperimenter, både grundlæggende og kliniske, har dataene været i overensstemmelse med en situation, hvor variabiliteten af ​​signalet (eller målet) er større end variabiliteten af ​​støjen (distraktionerne). Det klassiske tegn på dette er en zROC-funktion med en hældning < 1 - typisk omkring 0,6. En hældning på 1,0 indikerer en 2AFC-opgave med lige varians. For HAICT-opgaven, som vi har testet, ville vi forvente lige varians, men vi synes, det ville være værd at tjekke, så vi systematisk vil variere prævalensen, hvilket vil ændre kriteriet. Det vil feje en ROC-kurve ud, som vi kan undersøge.

Vi vil også teste Second Reader faux-AI for at afgøre, om lav prævalens gør Second Reader værre.

  • (H1): Vi forventer at gentage opdagelsen af, at menneskelige kriterier bliver mere konservative, efterhånden som prævalensen falder.
  • (H2): Vi forudsiger, at hældningen af ​​den resulterende zROC vil være 1,0.
  • (H3): Vi antager, at lav prævalens vil gøre Second Reader AI mindre effektiv, fordi den positive prædiktive værdi af dens kommentarer vil være lav.

    1. Afhængig variabel. Beskriv de(n) nøgleafhængige variable(r), der specificerer, hvordan de vil blive målt.

      De vigtigste afhængige variabler af interesse er nøjagtighed (og signaldetektionsderivaterne af nøjagtighed, d' og c), reaktionstid og subjektive vurderinger på undersøgelsen efter hver blok.

    2. Betingelser. Hvor mange og hvilke betingelser vil deltagerne blive tildelt?

Denne serie af eksperimenter undersøger, hvordan ændring af input fra en simuleret AI kan påvirke de beslutninger, der træffes af menneskelige observatører i en to-alternativ tvangsvalgsopgave (som beslutningen om at tilbagekalde en kvinde til yderligere undersøgelse i mammografi). Vi har udviklet et paradigme kaldet Human-AI Collaboration Tester (HAICT), der giver mulighed for effektiv test af interaktioner mellem et menneske og en simuleret AI.

Observatørernes opgave under alle forhold er at give en 2AFC-beslutning om, hvorvidt en stimulus er "dårlig" eller "ikke dårlig." For at bruge sprog, der groft efterligner en medicinsk diagnose, omtales hver stimulus som et "tilfælde". Observatører bliver bedt om at træffe en 2AFC-beslutning om arrays af farvede former. Afgørelsen træffes ud fra sagens overvejende farve. Antallet af elementer i hver farve er trukket fra en af ​​to normalfordelinger, en for positive (dårlige) stimuli og den anden for negative (ikke dårlige) stimuli.

Resultaterne fra tidligere HAICT-eksperimenter (3 og 4) viste, at menneskelig præstation i Second Reader-tilstanden falder signifikant ved lav prævalens. Ydeevnen i Second Reader-tilstanden var bedre end baseline, når prævalensen af ​​dårlige tilfælde var 50 %, men var signifikant dårligere end baseline, når prævalensen kun var 10 %. I dette eksperiment manipulerer vi forekomsten af ​​"dårlige" tilfælde i Second Reader og Baseline-betingelser. Fire forskellige prævalensrater vil blive testet - 10 %, 33 %, 67 % og 90 %. Observatører vil fuldføre 8 blokke (2 AI-regler x 4 prævalensrater), og blokrækkefølgen er tilfældig.

AI-regler, der skal testes:

  1. Baseline - Ingen AI-input. Observer klassificerer hvert tilfælde som "dårligt" eller "ikke" dårligt for sig selv.
  2. Anden læser - Observatøren træffer en første beslutning om hver sag. AI'en klassificerer lydløst stimuli ved hjælp af et konservativt kriterium (c = 0,5). Logikken for det konservative kriterium er, at den anden læser bliver brugt til at skære ned på falske positive svar, og det er derfor hensigten at stille spørgsmålstegn ved positive menneskelige svar, der kan være marginale. Hvis observatøren og AI er uenige, informerer AI den menneskelige observatør. Observatøren får derefter en chance for enten at ændre sit svar eller gå med sin første mening.

    Som i forsøg 1-5 er AI d-prime fastsat til 2,2. Feedback er kendt for at øge prævalenseffekten, så feedback vil blive givet både i praksis og testforsøgene. Observatører vil gennemføre 20 øvelsesforsøg og 200 testforsøg i hver blok. Umiddelbart efter hver blok er afsluttet, vil observatører blive vist en oversigt over deres præstationer. Efter Second Reader-blokkene vil de også blive bedt om at besvare tre subjektive spørgsmål om anvendeligheden af ​​AI (se "Filer" for flere detaljer).

  3. Analyser. Angiv præcis, hvilke analyser du vil foretage for at undersøge hovedspørgsmålet/hypotesen.

    Først opsummerer vi antallet af hits, sande negativer, misser og falske alarmer i hver blok. Ud fra dette kan vi beregne nøjagtigheden, den positive prædiktive værdi, følsomheden (d-prime) og kriteriet for hver observatør under hver af de forskellige forhold. Givet mål for ydeevne ved 4 prævalensniveauer, kan vi estimere ROC-kurven (pHit x pFA) og zROC-funktionen (zHit x zFA). Vi vil teste hypotesen om, at hældningen af ​​zROC er lig med 1 (konsekvensen af ​​en lige varians 2AFC opgave).

  4. Flere analyser. Nogen sekundære analyser?

    Vi vil se på, om observatørernes subjektive meninger om AI er korreleret med variabler såsom den empiriske d-prime eller den positive prædiktive værdi.

  5. Prøvestørrelse. Hvor mange observationer vil der blive indsamlet, eller hvad vil bestemme stikprøvestørrelsen? Ingen grund til at begrunde beslutningen, men vær præcis om, præcis hvordan antallet vil blive bestemt.

    Vi tester 12 observatører. Dette er i overensstemmelse med prøvestørrelserne fra tidligere eksperimenter.

  6. Andet. Er der andet, du gerne vil forhåndstilmelde? (f.eks. dataekskluderinger, variabler indsamlet til udforskningsformål, usædvanlige analyser planlagt?)

N/A

Undersøgelsestype

Interventionel

Tilmelding (Faktiske)

12

Fase

  • Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiesteder

    • Massachusetts
      • Boston, Massachusetts, Forenede Stater, 02215
        • Visual Attention Lab / Brigham and Women's Hospital

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

18 år og ældre (Voksen, Ældre voksen)

Tager imod sunde frivillige

Ja

Beskrivelse

Inklusionskriterier:

  • - Alle er velkomne til at tilmelde sig online

Ekskluderingskriterier:

  • Skal bestå Ishihara farvesynsscreeningstest
  • 20/25 syn (med korrektion)

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

  • Primært formål: Grundvidenskab
  • Tildeling: N/A
  • Interventionel model: Enkelt gruppeopgave
  • Maskning: Ingen (Åben etiket)

Våben og indgreb

Deltagergruppe / Arm
Intervention / Behandling
Eksperimentel: Eksperiment
Alle deltagere testes under alle betingelser i dette eksperiment.
I dette eksperiment træffer deltageren under nogle forhold deres beslutning i nærværelse af information om en simuleret beslutning om kunstig intelligens.
Den hyppighed, hvormed mål præsenteres, varierer fra 10 % til 90 %
Andre navne:
  • Basisrente

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
D'
Tidsramme: Data indsamles inden for en session på omkring en time.
D' (d-prime) er signaldetektionsteoriens mål for præstationsniveauet på en opgave. Det beregnes ved at finde andelen af sandt positive responser =(sandt positive forsøg)/(sandt positive + falsk negative forsøg) = p(TP) og ved at finde andelen af falsk positive responser =(falsk positive forsøg)/(falsk positive + sandt negative forsøg) = p(FP). Disse værdier transformeres til 'z-scorer' (for eksempel ved brug af NORMSINV i Excel til at beregne den inverse standardnormalfordeling). D' defineres som Z(TP)-Z(FP). Dens interval er fra 0 for tilfælde hvor intet signal kan skelnes fra støjen, til ~4,0. Den øvre grænse er ikke defineret, men 4 ville betyde, at en observatør er stort set perfekt til at skelne signal fra støj.
Data indsamles inden for en session på omkring en time.
Kriterium
Tidsramme: Data indsamles i en session på omkring en time.
Kriteriet, ligesom D' (se ovenfor), beregnes ud fra z(TP) og z(FP). Kriterium ( c ) = (z(TP)+z(FP))/-2. En værdi på nul betyder, at observatøren er lige tilbøjelig til at give et positivt (f.eks. 'target present') svar som et negativt (fra værende) svar. Positive værdier betyder, at observatøren med større sandsynlighed siger "fra værende" (et "konservativt" kriterium). Negative værdier betyder, at observatøren med større sandsynlighed siger "til stede" (et "liberalt" kriterium). Liberalt og konservativt har ingen politiske konnotationer i denne sammenhæng. Kriterieværdier falder næsten altid mellem -2 og 2.
Data indsamles i en session på omkring en time.

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Reaktionstid
Tidsramme: Data indsamles i en session på omkring en time.
Dette er et mål for, hvor lang tid det tager at give et svar.
Data indsamles i en session på omkring en time.

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Samarbejdspartnere

Efterforskere

  • Ledende efterforsker: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

1. januar 2020

Primær færdiggørelse (Faktiske)

1. august 2024

Studieafslutning (Faktiske)

4. november 2025

Datoer for studieregistrering

Først indsendt

18. februar 2022

Først indsendt, der opfyldte QC-kriterier

28. februar 2022

Først opslået (Faktiske)

9. marts 2022

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

20. januar 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

29. december 2025

Sidst verificeret

1. december 2025

Mere information

Begreber relateret til denne undersøgelse

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

  • 2007P000646-B
  • R01CA207490 (U.S. NIH-bevilling/kontrakt)

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

JA

IPD-planbeskrivelse

De-identificerede rådata vil blive offentliggjort på eksperimentets OSF-side og vil også være tilgængelige på anmodning til PI.

IPD-delingstidsramme

Materialer vil være tilgængelige, når det forlanges

IPD-delingsadgangskriterier

i det væsentlige ubegrænset

IPD-deling Understøttende informationstype

  • STUDY_PROTOCOL
  • SAP
  • ICF

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Beslutningstagning

Abonner