Denne side blev automatisk oversat, og nøjagtigheden af oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Projekt 3 Eksempel: Human-AI Collaboration Tester (HAICT) Exp. 7

29. december 2025 opdateret af: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Undersøgelsen er en del af et "bundt" af eksperimenter, der udgør projekt tre af en National Eye Institute-bevilling. Projekt tre omfatter en række eksperimenter, der undersøger, hvordan ændring af input fra en simuleret AI kan påvirke de beslutninger, der træffes af menneskelige observatører i en to-alternativ tvangsvalgsopgave (som beslutningen om at tilbagekalde en kvinde til yderligere undersøgelse i mammografi). HAICT 7, det her beskrevne eksperiment, undersøger, hvordan skiftende prævalens påvirker den menneskelige præstation, når AI bruges som en anden læser.

Studieoversigt

Status

Afsluttet

Betingelser

Intervention / Behandling

Detaljeret beskrivelse

Denne tekst er teksten til præregistreringen til HAICT 7-eksperimentet som beskrevet i Open Science Framework. https://osf.io/hngu4/

BEMÆRK: Denne undersøgelse er repræsentativ for undersøgelser udført i projekt 3 af denne bevilling. Der er flere eksperimenter i bundtet af eksperimenter repræsenteret af projekt 3, men det er ikke muligt at registrere et bundt af undersøgelser på CT.gov.

BEMÆRK: Da pronomenkommentaren er vejledende, lader vi den stå indtil videre.

Human-AI Collaboration Tester (HAICT) Exp. 7 (let redigeret fra OSF)

Dataindsamling. Er der allerede indsamlet data til denne undersøgelse? (Ja Nej)
Ja
Hypotese. Hvad er hovedspørgsmålet, der bliver stillet eller hypotesen, der testes i denne undersøgelse?

Baggrund: I en række søgeeksperimenter, både grundlæggende og kliniske, har dataene været i overensstemmelse med en situation, hvor variabiliteten af signalet (eller målet) er større end variabiliteten af støjen (distraktionerne). Det klassiske tegn på dette er en zROC-funktion med en hældning < 1 - typisk omkring 0,6. En hældning på 1,0 indikerer en 2AFC-opgave med lige varians. For HAICT-opgaven, som vi har testet, ville vi forvente lige varians, men vi synes, det ville være værd at tjekke, så vi systematisk vil variere prævalensen, hvilket vil ændre kriteriet. Det vil feje en ROC-kurve ud, som vi kan undersøge.

Vi vil også teste Second Reader faux-AI for at afgøre, om lav prævalens gør Second Reader værre.

(H1): Vi forventer at gentage opdagelsen af, at menneskelige kriterier bliver mere konservative, efterhånden som prævalensen falder.
(H2): Vi forudsiger, at hældningen af den resulterende zROC vil være 1,0.
(H3): Vi antager, at lav prævalens vil gøre Second Reader AI mindre effektiv, fordi den positive prædiktive værdi af dens kommentarer vil være lav.
1. Afhængig variabel. Beskriv de(n) nøgleafhængige variable(r), der specificerer, hvordan de vil blive målt.
  De vigtigste afhængige variabler af interesse er nøjagtighed (og signaldetektionsderivaterne af nøjagtighed, d' og c), reaktionstid og subjektive vurderinger på undersøgelsen efter hver blok.
2. Betingelser. Hvor mange og hvilke betingelser vil deltagerne blive tildelt?

Denne serie af eksperimenter undersøger, hvordan ændring af input fra en simuleret AI kan påvirke de beslutninger, der træffes af menneskelige observatører i en to-alternativ tvangsvalgsopgave (som beslutningen om at tilbagekalde en kvinde til yderligere undersøgelse i mammografi). Vi har udviklet et paradigme kaldet Human-AI Collaboration Tester (HAICT), der giver mulighed for effektiv test af interaktioner mellem et menneske og en simuleret AI.

Observatørernes opgave under alle forhold er at give en 2AFC-beslutning om, hvorvidt en stimulus er "dårlig" eller "ikke dårlig." For at bruge sprog, der groft efterligner en medicinsk diagnose, omtales hver stimulus som et "tilfælde". Observatører bliver bedt om at træffe en 2AFC-beslutning om arrays af farvede former. Afgørelsen træffes ud fra sagens overvejende farve. Antallet af elementer i hver farve er trukket fra en af to normalfordelinger, en for positive (dårlige) stimuli og den anden for negative (ikke dårlige) stimuli.

Resultaterne fra tidligere HAICT-eksperimenter (3 og 4) viste, at menneskelig præstation i Second Reader-tilstanden falder signifikant ved lav prævalens. Ydeevnen i Second Reader-tilstanden var bedre end baseline, når prævalensen af dårlige tilfælde var 50 %, men var signifikant dårligere end baseline, når prævalensen kun var 10 %. I dette eksperiment manipulerer vi forekomsten af "dårlige" tilfælde i Second Reader og Baseline-betingelser. Fire forskellige prævalensrater vil blive testet - 10 %, 33 %, 67 % og 90 %. Observatører vil fuldføre 8 blokke (2 AI-regler x 4 prævalensrater), og blokrækkefølgen er tilfældig.

AI-regler, der skal testes:

Baseline - Ingen AI-input. Observer klassificerer hvert tilfælde som "dårligt" eller "ikke" dårligt for sig selv.
Anden læser - Observatøren træffer en første beslutning om hver sag. AI'en klassificerer lydløst stimuli ved hjælp af et konservativt kriterium (c = 0,5). Logikken for det konservative kriterium er, at den anden læser bliver brugt til at skære ned på falske positive svar, og det er derfor hensigten at stille spørgsmålstegn ved positive menneskelige svar, der kan være marginale. Hvis observatøren og AI er uenige, informerer AI den menneskelige observatør. Observatøren får derefter en chance for enten at ændre sit svar eller gå med sin første mening.
Som i forsøg 1-5 er AI d-prime fastsat til 2,2. Feedback er kendt for at øge prævalenseffekten, så feedback vil blive givet både i praksis og testforsøgene. Observatører vil gennemføre 20 øvelsesforsøg og 200 testforsøg i hver blok. Umiddelbart efter hver blok er afsluttet, vil observatører blive vist en oversigt over deres præstationer. Efter Second Reader-blokkene vil de også blive bedt om at besvare tre subjektive spørgsmål om anvendeligheden af AI (se "Filer" for flere detaljer).
Analyser. Angiv præcis, hvilke analyser du vil foretage for at undersøge hovedspørgsmålet/hypotesen.
Først opsummerer vi antallet af hits, sande negativer, misser og falske alarmer i hver blok. Ud fra dette kan vi beregne nøjagtigheden, den positive prædiktive værdi, følsomheden (d-prime) og kriteriet for hver observatør under hver af de forskellige forhold. Givet mål for ydeevne ved 4 prævalensniveauer, kan vi estimere ROC-kurven (pHit x pFA) og zROC-funktionen (zHit x zFA). Vi vil teste hypotesen om, at hældningen af zROC er lig med 1 (konsekvensen af en lige varians 2AFC opgave).
Flere analyser. Nogen sekundære analyser?
Vi vil se på, om observatørernes subjektive meninger om AI er korreleret med variabler såsom den empiriske d-prime eller den positive prædiktive værdi.
Prøvestørrelse. Hvor mange observationer vil der blive indsamlet, eller hvad vil bestemme stikprøvestørrelsen? Ingen grund til at begrunde beslutningen, men vær præcis om, præcis hvordan antallet vil blive bestemt.
Vi tester 12 observatører. Dette er i overensstemmelse med prøvestørrelserne fra tidligere eksperimenter.
Andet. Er der andet, du gerne vil forhåndstilmelde? (f.eks. dataekskluderinger, variabler indsamlet til udforskningsformål, usædvanlige analyser planlagt?)

N/A

Undersøgelsestype

Interventionel

Tilmelding (Faktiske)

Fase

Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiesteder

Forenede Stater
- Massachusetts
  - Boston, Massachusetts, Forenede Stater, 02215
    - Visual Attention Lab / Brigham and Women's Hospital

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

18 år og ældre (Voksen, Ældre voksen)

Tager imod sunde frivillige

Beskrivelse

Inklusionskriterier:

- Alle er velkomne til at tilmelde sig online

Ekskluderingskriterier:

Skal bestå Ishihara farvesynsscreeningstest
20/25 syn (med korrektion)

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Primært formål: Grundvidenskab
Tildeling: N/A
Interventionel model: Enkelt gruppeopgave
Maskning: Ingen (Åben etiket)

Antal våben

Våben og indgreb

Deltagergruppe / Arm	Intervention / Behandling
Eksperimentel: Eksperiment Alle deltagere testes under alle betingelser i dette eksperiment.	Adfærdsmæssigt: Simuleret Second Reader AI I dette eksperiment træffer deltageren under nogle forhold deres beslutning i nærværelse af information om en simuleret beslutning om kunstig intelligens. Adfærdsmæssigt: Målprævalens Den hyppighed, hvormed mål præsenteres, varierer fra 10 % til 90 % Andre navne: Basisrente

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
D' Tidsramme: Data indsamles inden for en session på omkring en time.	D' (d-prime) er signaldetektionsteoriens mål for præstationsniveauet på en opgave. Det beregnes ved at finde andelen af sandt positive responser =(sandt positive forsøg)/(sandt positive + falsk negative forsøg) = p(TP) og ved at finde andelen af falsk positive responser =(falsk positive forsøg)/(falsk positive + sandt negative forsøg) = p(FP). Disse værdier transformeres til 'z-scorer' (for eksempel ved brug af NORMSINV i Excel til at beregne den inverse standardnormalfordeling). D' defineres som Z(TP)-Z(FP). Dens interval er fra 0 for tilfælde hvor intet signal kan skelnes fra støjen, til ~4,0. Den øvre grænse er ikke defineret, men 4 ville betyde, at en observatør er stort set perfekt til at skelne signal fra støj.	Data indsamles inden for en session på omkring en time.
Kriterium Tidsramme: Data indsamles i en session på omkring en time.	Kriteriet, ligesom D' (se ovenfor), beregnes ud fra z(TP) og z(FP). Kriterium ( c ) = (z(TP)+z(FP))/-2. En værdi på nul betyder, at observatøren er lige tilbøjelig til at give et positivt (f.eks. 'target present') svar som et negativt (fra værende) svar. Positive værdier betyder, at observatøren med større sandsynlighed siger "fra værende" (et "konservativt" kriterium). Negative værdier betyder, at observatøren med større sandsynlighed siger "til stede" (et "liberalt" kriterium). Liberalt og konservativt har ingen politiske konnotationer i denne sammenhæng. Kriterieværdier falder næsten altid mellem -2 og 2.	Data indsamles i en session på omkring en time.

Sekundære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
Reaktionstid Tidsramme: Data indsamles i en session på omkring en time.	Dette er et mål for, hvor lang tid det tager at give et svar.	Data indsamles i en session på omkring en time.

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Sponsor

Brigham and Women's Hospital

Samarbejdspartnere

National Cancer Institute (NCI)

Efterforskere

Ledende efterforsker: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

1. januar 2020

Primær færdiggørelse (Faktiske)

1. august 2024

Studieafslutning (Faktiske)

4. november 2025

Datoer for studieregistrering

Først indsendt

18. februar 2022

Først indsendt, der opfyldte QC-kriterier

28. februar 2022

Først opslået (Faktiske)

9. marts 2022

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

20. januar 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

29. december 2025

Sidst verificeret

1. december 2025

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

2007P000646-B
R01CA207490 (U.S. NIH-bevilling/kontrakt)

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

IPD-planbeskrivelse

De-identificerede rådata vil blive offentliggjort på eksperimentets OSF-side og vil også være tilgængelige på anmodning til PI.

IPD-delingstidsramme

Materialer vil være tilgængelige, når det forlanges

IPD-delingsadgangskriterier

i det væsentlige ubegrænset

IPD-deling Understøttende informationstype

STUDY_PROTOCOL
SAP
ICF

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Beslutningstagning

Jiawei Jiang

Rekruttering

Development and Application of a Clinical Decision Support System for Exercise Rehabilitation in Patients With Osteoporotic Vertebral Compression Fractures

Clinical Decision Support System

Kina
Iaso Maternity Hospital, Athens, Greece

Afsluttet

Letter et klinisk støttesystem til parenteral ernæring (PN) bedømmelsen af valg af den mest effektive kommercielle løsning pr. patient (og ændrer den, hvis det er nødvendigt)? (CDSS)

Clinical Decision Support System

Grækenland
Medway NHS Foundation Trust

Afsluttet

En kvalitativ undersøgelse af kliniske beslutningsstøttesystemers implementering blandt hospitalsklinikere (CDSS-ADOPT)

Clinical Decision Support System (CDSS)

Det Forenede Kongerige
Kaohsiung Medical University Chung-Ho Memorial...

Rekruttering

Præ-anæstesi Billedbehandlingsbaseret respiratorisk vurdering og analyse

Clinical Decision Support System

Taiwan
Beijing Anzhen Hospital

Aktiv, ikke rekrutterende

Akut Myokardieinfarkt Klinisk Intelligente Beslutningsstøttesystem (AMI-CIDSS)

Akut myokardieinfarkt | Clinical Decision Support System | Store sprogmodeller

Kina
University of Nebraska

Afsluttet

Netværksanalyse af bodækkende koordination, der understøtter suprapostural fingerfærdighed

Balance Board | Trail Making Task

Forenede Stater
Prof.dr Carin (C.C.D.) van der Rijt
Noordwest Ziekenhuisgroep; Rijnstate Hospital; Ikazia Hospital, Rotterdam; Laurens... og andre samarbejdspartnere

Afsluttet

Passende medicinbrug i hollandsk terminal pleje (AMUSE)

Livskvalitet | Palliativ pleje | Håndtering af medicinterapi | Terminalpleje | Clinical Decision Support System (CDSS)

Holland
Turkish Ministry of Health Izmir Teaching Hospital

Ukendt

Klinisk beslutningsstøttesystem til at definere 30 dages uønskede kliniske hændelser for akutte koronare syndromer på akutafdelingen

Akut koronarsyndrom | Clinical Decision Support System

Kalkun
Keck School of Medicine of USC
AIDS Healthcare Foundation; Los Angeles General Medical Center

Ikke rekrutterer endnu

Evaluering af et klinisk beslutningsstøtteværktøj til antiretroviral terapioptimering

Antiretroviral terapi, meget aktiv | HIV (Human Immunodeficiency Virus) | Personlig medicin | Clinical Decision Support System (CDSS) | AIDS (Acquired Immune Deficiency Syndrome) | INDIVIDUALISERET TERAPI | Præcisionsmedicin

Forenede Stater
National University, Rwanda
University of Pittsburgh; Brown University; Centers for Disease Control and... og andre samarbejdspartnere

Ukendt

Evaluering af kliniske virkninger og omkostninger ved e-sundhed i Rwanda

Clinical Decision Support System | HIV/AIDS og infektioner | Elektroniske lægejournaler

Rwanda

Projekt 3 Eksempel: Human-AI Collaboration Tester (HAICT) Exp. 7

Studieoversigt

Status

Betingelser

Intervention / Behandling

Detaljeret beskrivelse

Undersøgelsestype

Tilmelding (Faktiske)

Fase

Kontakter og lokationer

Studiesteder

Deltagelseskriterier

Berettigelseskriterier

Aldre berettiget til at studere

Tager imod sunde frivillige

Beskrivelse

Studieplan

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Antal våben

Våben og indgreb

Deltagergruppe / Arm

Intervention / Behandling

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Sekundære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Samarbejdspartnere og efterforskere

Sponsor

Samarbejdspartnere

Efterforskere

Datoer for undersøgelser

Studer store datoer

Studiestart (Faktiske)

Primær færdiggørelse (Faktiske)

Studieafslutning (Faktiske)

Datoer for studieregistrering

Først indsendt

Først indsendt, der opfyldte QC-kriterier

Først opslået (Faktiske)

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

Sidst verificeret

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

IPD-planbeskrivelse

IPD-delingstidsramme

IPD-delingsadgangskriterier

IPD-deling Understøttende informationstype

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Studerer et amerikansk FDA-reguleret enhedsprodukt

Kliniske forsøg med Beslutningstagning

Søg i lignende forsøg

Sponsorer og samarbejdspartnere

Medicinske tilstande

Narkotikainterventioner

CROs by country

CROs in Gambia

Betingelser

Sjældne sygdomme

Narkotikainterventioner

Kosttilskud

Sponsor / samarbejdspartnere

Placeringer