Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Afhjælpning af Automatiseringstendens i Læge-LLM Diagnostisk Ræsonnering ved Hjælp af Adfærdsnudges

27. marts 2026 opdateret af: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences

Afhjælpning af Automatiseringstendens i Læge-LLM Diagnostisk Ræsonnering ved Hjælp af Adfærdsmæssige Puf

Formålet med denne randomiserede kontrollerede undersøgelse er at evaluere, om adfærdsmæssige nudges kan reducere automatiseringstendens, den ukritiske accept af automatiseret output, hos læger, der bruger store sprogmodeller (LLM) som ChatGPT-5.1 til klinisk beslutningstagning.

Det primære spørgsmål, det sigter mod at besvare, er: Reducerer en dobbeltmekanisme adfærdsmæssig nudge-intervention (baseline nøjagtighedsforankring plus casespecifikke farvekodede tillidssignaler) lægers ukritiske accept af forkerte LLM-anbefalinger?

Forskere vil sammenligne læger, der modtager LLM-anbefalinger sammen med et adfærdsmæssigt nudge, med dem, der modtager LLM-anbefalinger uden nudget, for at vurdere, om nudget reducerer automatiseringstendens.

Deltagerne vil:

  • Evaluere seks kliniske vignetter ledsaget af LLM-genererede anbefalinger (halvdelen indeholder bevidste, klinisk signifikante fejl).
  • Kontrolgruppe: Kunne se LLM-anbefalinger i standardformat uden nudget.
  • Behandlingsgruppe: Kunne se ChatGPTs diagnostiske nøjagtighed på standard medicinske datasæt som en indledende forankring, derefter modtage farvekodede tillidssignaler sammen med hver anbefaling (f.eks. rød for lav tillid).
  • Få deres svar evalueret af blindede bedømmere ved hjælp af en ekspertudviklet vurderingsrubrik for at opdage ukritisk accept af fejlagtig information.

Studieoversigt

Status

Rekruttering

Betingelser

Intervention / Behandling

Detaljeret beskrivelse

Automatiseringsbias repræsenterer en kritisk udfordring i moderne klinisk praksis, især når kunstig intelligens (AI)-værktøjer bliver stadig mere integreret i sundhedssektorens arbejdsgange. Dette kognitive fænomen beskriver klinikernes tendens til at foretrække forslag fra automatiserede beslutningsstøttesystemer, selv når disse forslag er forkerte. Efterhånden som store sprogmodeller (LLM'er) som ChatGPT-5.1 vinder indpas i medicinske sammenhænge, skal deres potentiale for at reducere fejl og forbedre effektivitet afvejes mod en væsentlig bekymring: disse modeller mangler streng medicinsk validering og kan forstærke eksisterende kognitive bias gennem forkerte eller vildledende anbefalinger.

Fremkomsten af automatiseringbias i medicinske sammenhænge afspejler en kompleks samspil af miljømæssige og psykologiske faktorer. Tidsbegrænsninger i kliniske miljøer med høj volumen skaber et pres for at acceptere AI-genererede anbefalinger uden tilstrækkelig kritisk granskning. Økonomiske incitamenter, der prioriterer effektivitet over grundighed, kan yderligere modvirke den kritiske evaluering, der er nødvendig for sund klinisk dømmekraft. Kognitiv træthed under lange vagter reducerer lægers kapacitet for vedvarende analytisk tænkning. Disse påvirkninger interagerer med psykologiske mekanismer, herunder spredning af ansvar, overmod på teknologiske løsninger og kognitiv afbrydelse, der tilsammen skaber forhold, hvor ukritisk accept af AI-genererede anbefalinger bliver mere sandsynlig.

Denne randomiserede kontrollerede undersøgelse evaluerer effektiviteten af en adfærdsmæssig 'nudge'-intervention designet til at mindske automatiseringbias blandt læger, der anvender LLM-genererede diagnostiske anbefalinger. Det primære mål er at afgøre, om denne intervention forbedrer diagnostiske ræsonneringspræstationsscorer ved evaluering af kliniske vignetter, der inkluderer bevidst fejlbehæftede LLM-anbefalinger. Sekundære mål inkluderer at vurdere, om lægens erfaringsniveau, køn og tidligere LLM-erfaring modererer interventionens effektivitet, samt at bestemme differentialeffektivitet for vignetter på tværs af forskellige tillidssignaler.

Denne undersøgelse anvender en enkelt-blind, randomiseret kontrolleret undersøgelse med to parallelle arme. Deltagerne vil blive tilfældigt tildelt 1:1 til enten interventions- eller kontrolarmen. For at eliminere variabilitet fra forskelle i promptfærdigheder vil deltagerne ikke interagere direkte med et live LLM-interface. I stedet vil alle deltagere bruge en specialbygget webplatform, der viser kliniske vignetter med forudgenererede LLM-anbefalinger, hvilket sikrer identisk LLM-genereret indhold for hver vignet.

Alle deltagere vil evaluere seks kliniske vignetter i løbet af en enkelt, overvåget session på cirka 75 minutter. Tre vignetter vil indeholde bevidst indførte kliniske ræsonneringsfejl i LLM-anbefalingerne, mens tre vil indeholde korrekte anbefalinger. Vignetterne vil blive præsenteret i tilfældig rækkefølge for at forhindre mønstergenkendelse.

Kontrolarmens deltagere vil evaluere kliniske vignetter med LLM-diagnostiske anbefalinger genereret af ChatGPT præsenteret i standard, neutral tekstformat uden yderligere kontekstuel information. Interventionsarmens deltagere vil evaluere de samme vignetter sammen med en adfærdsmæssig 'nudge'. Denne intervention består af to synkroniserede kognitive signaler: (1) et forankringssignal, der viser ChatGPT's basale diagnostiske nøjagtighed på standard medicinske datasæt øverst i interfacepanelet, der eksplicit forankrer forventninger til modellens fejlbarlighed, og (2) et selektivt opmærksomhedssignal, der viser LLM-anbefalingen sammen med et farvekodet tillidssignal genereret gennem en ensemblevurdering: tre uafhængige state-of-the-art LLM'er (Claude Sonnet 4.5, Gemini 2.5 Pro Thinking og GPT-5.1) giver hver tillidsvurderinger for anbefalingen, og den gennemsnitlige tillid bestemmer signalets farve for at mindske enkeltmodelmiskalibrering.

De farvekodede tillidssignaler er kategoriseret i tre distinkte niveauer baseret på ensemblets gennemsnitlige tillid i forhold til basale diagnostiske nøjagtighed. Røde signaler udløses, når den gennemsnitlige tillid falder under ChatGPT's etablerede basale nøjagtighed, der eksplicit markerer høj-usikkerhedstilfælde, der kræver forhøjet kritisk granskning. Orange signaler indikerer, at mens den gennemsnitlige tillid overstiger den basale gennemsnit, forbliver den under 100%, hvilket signalerer behovet for fortsat klinisk årvågenhed og undgåelse af selvtilfredshed. Endelig er grønne signaler forbeholdt tilfælde med 100% ensemblekonsensus; dog forbliver standard AI-sikkerhedsadvarsler til stede selv på dette tillidsniveau for at beskytte mod overafhængighed af systemets output.

Deltagerne vil blive præsenteret for seks kliniske vignetter specifikt designet til at måle automatiseringbias, hentet og modificeret fra rigtige tilfælde, der repræsenterer et spektrum af diagnostisk vanskelighed og almindelige medicinske specialer. Hver vignet følger et standardiseret format inklusive hovedklage, sygdomshistorie, relevant tidligere medicinsk/social/familiehistorie, fysiske undersøgelsesfund og indledende laboratorieresultater.

Det primære resultat er Diagnostic Reasoning Performance Score, en sammensat procentscore baseret på en struktureret rubrik, der evaluerer: kvaliteten af differentialdiagnoser, understøttende fund, modstridende fund, nøjagtighed af endelig diagnose og hensigtsmæssigheden af næste trin. Sekundære resultater inkluderer topvalgsdiagnosenøjagtighed (forkert, delvist korrekt eller korrekt). Alle svar vil blive evalueret af blindede bedømmere ved hjælp af bedømmelsesrubrikken.

Undersøgelsestype

Interventionel

Tilmelding (Anslået)

50

Fase

  • Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiekontakt

Undersøgelse Kontakt Backup

Studiesteder

    • Punjab Province
      • Lahore, Punjab Province, Pakistan, 54792
        • Rekruttering
        • Lahore University of Management Sciences
        • Ledende efterforsker:
          • Ihsan Ayyub Qazi, PhD
        • Kontakt:
        • Kontakt:

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

  • Barn
  • Voksen
  • Ældre voksen

Tager imod sunde frivillige

Ja

Beskrivelse

Inklusionskriterier:

  • Fuldt eller midlertidigt registrerede læger hos Pakistan Medical and Dental Council (PMDC).
  • Bestået Bachelor of Medicine, Bachelor of Surgery (MBBS) eksamen.
    Den tilsvarende grad til MBBS i USA og Canada er Doctor of Medicine (MD).
  • Deltagere skal have gennemført et struktureret træningsprogram i brugen af ChatGPT (eller en sammenlignelig stor sprogmodel), der i alt udgør mindst 10 timers undervisning.
    Programmet skal omfatte praktisk øvelse relateret til nøgleaspekter af LLM, specifikt prompt engineering og indholdsevaluering.

Eksklusionskriterier:

  • Alle andre registrerede læger (fuldt eller midlertidigt) hos PMDC (f.eks. fagfolk med Bachelor of Dental Surgery eller BDS).

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

  • Primært formål: Diagnostisk
  • Tildeling: Randomiseret
  • Interventionel model: Parallel tildeling
  • Maskning: Enkelt

Våben og indgreb

Deltagergruppe / Arm
Intervention / Behandling
Aktiv komparator: ChatGPT-anbefalinger sammen med en adfærdsmæssig skub
Deltagerne vil evaluere seks kliniske vignetter. Under forsøget vil de have adgang til kliniske anbefalinger fra en specifik, kommercielt tilgængelig LLM (ChatGPT) udover konventionelle diagnostiske ressourcer. LLM-anbefalinger for tre vignetter vil indeholde bevidst fejlagtig diagnostisk information, og for tre vignetter vil den indeholde præcise anbefalinger. Tilfældene vil blive præsenteret i tilfældig rækkefølge. Deltagere i denne arm vil modtage et adfærdsnudge indlejret i LLM-anbefalingernes interface, der præsenterer to synkroniserede kognitive signaler, når LLM-panelet er udvidet: (1) et forankringssignal, der viser ChatGPTS baseline diagnostiske nøjagtighed på standard medicinske datasæt øverst i panelet for at skabe realistiske forventninger, før et signalintervention placeret lige under viser LLM-anbefalingerne sammen med et tilfældesspecifikt farvekodet tillidssignal.
Deltagere i behandlingsgruppen vil modtage en adfærdsmæssig nudge-intervention indlejret i LLM-anbefalingernes grænseflade, der præsenterer to synkroniserede kognitive signaler, når LLM-panelet er udvidet: (1) et forankringssignal, der viser ChatGPT's baseline diagnostiske nøjagtighed på standard medicinske datasæt øverst i panelet for at skabe realistiske forventninger før visning af den specifikke anbefaling, og (2) et selektivt opmærksomhedssignal placeret umiddelbart under, som viser LLM-anbefalingen sammen med et casespecifikt og farvekodet tillidssignal. Dette signal kategoriseres som rødt, når den gennemsnitlige ensemble-tillid falder under den etablerede baseline-nøjagtighed, hvilket markerer høj-usikkerhedssager, der kræver kritisk evaluering; orange, når tilliden opfylder eller overstiger baselinen, men forbliver under 100%, beregnet til at forhindre selvtilfredshed og opretholde aktiv klinisk undersøgelse; og grønt for 100% ensemble-konsensus, selvom standard advarsler stadig gælder for at beskytte imod.
Ingen indgriben: ChatGPT-anbefalinger uden et adfærdsmæssigt puf
Deltagerne vil evaluere seks kliniske vignetter. Under forsøget vil de have adgang til kliniske anbefalinger fra en specifik, kommercielt tilgængelig LLM (ChatGPT) udover konventionelle diagnostiske ressourcer. LLM-anbefalinger for tre vignetter vil indeholde bevidst fejlbehæftet diagnostisk information. Sagerne vil blive præsenteret i tilfældig rækkefølge. Deltagere i denne arm vil ikke modtage nogen adfærdsmæssigt puf.

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Diagnostic reasoning nøjagtighedsscore
Tidsramme: Vurderet ved et enkelt tidspunkt for hver case, under den planlagte diagnosticeringssession, som finder sted mellem 0-5 dage efter deltagerens tilmelding.
Det primære udfald vil være procentdelen korrekt for hvert tilfælde, som spænder fra 0 til 100 %, hvor højere score indikerer bedre diagnostisk præstation. For hvert tilfælde vil deltagerne blive bedt om deres tre førende diagnoser, fund der understøtter hver diagnose og fund der modsiger hver diagnose. For hver plausibel diagnose vil deltagerne modtage 1 point. Fund der understøtter diagnosen og fund der modsiger diagnosen vil også blive bedømt baseret på korrekthed, med 1 point for hvert korrekt svar. Deltagerne vil derefter blive bedt om at navngive deres øverste diagnose, som de mener er mest sandsynlig, og vil tjene 9 point for et rimeligt svar og 18 point for det mest præcise svar. Til sidst vil deltagerne blive bedt om at navngive op til 3 næste skridt for yderligere at evaluere patienten, med 0,5 point tildelt for et delvist korrekt svar og 1 point for et fuldstændig korrekt svar. Det primære udfald vil blive sammenlignet på tilfældets niveau mellem de randomiserede grupper.
Vurderet ved et enkelt tidspunkt for hver case, under den planlagte diagnosticeringssession, som finder sted mellem 0-5 dage efter deltagerens tilmelding.

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Topvalg diagnose nøjagtighedsscore
Tidsramme: Vurderet på et enkelt tidspunkt for hvert tilfælde, under den planlagte diagnostiske resonneringsevaluering, som finder sted 0-5 dage efter deltagerens tilmelding.
Det sekundære resultat vil måle deltagernes præstation i at identificere den mest sandsynlige diagnose for hver kliniske vignet. Efter evaluering af hvert tilfælde vil deltagerne vælge deres enkeltstående mest sandsynlige diagnose, som vil blive scoret på en foruddefineret tre-trins diagnostisk nøjagtighedsskala: 18 point for den mest nøjagtige diagnose, 9 point for en klinisk fornuftig alternativ, og 0 point for en forkert diagnose. For hver deltager beregnes en Top Choice Diagnosis Accuracy Score som (samlede point optjent ÷ maksimalt mulige point) × 100, hvilket giver en 0-100 % rækkevidde, hvor højere score indikerer større diagnostisk nøjagtighed. Denne procentvise score vil blive sammenlignet på tilfældsniveau mellem randomiserede grupper for at kvantificere effekten af automatiseringsbias på diagnostisk beslutningstagning.
Vurderet på et enkelt tidspunkt for hvert tilfælde, under den planlagte diagnostiske resonneringsevaluering, som finder sted 0-5 dage efter deltagerens tilmelding.

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Efterforskere

  • Ledende efterforsker: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
  • Ledende efterforsker: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
  • Ledende efterforsker: Ali Zafar Sheikh, MBBS, Lahore General Hospital
  • Ledende efterforsker: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
  • Ledende efterforsker: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

17. januar 2026

Primær færdiggørelse (Anslået)

1. juli 2026

Studieafslutning (Anslået)

1. august 2026

Datoer for studieregistrering

Først indsendt

26. december 2025

Først indsendt, der opfyldte QC-kriterier

26. december 2025

Først opslået (Faktiske)

9. januar 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

31. marts 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

27. marts 2026

Sidst verificeret

1. marts 2026

Mere information

Begreber relateret til denne undersøgelse

Andre undersøgelses-id-numre

  • LUMS-IRB-0412/12192025/IAQ-FWA

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

INGEN

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Diagnose

Kliniske forsøg med Behavioral Nudge Intervention

Abonner