- ICH GCP
- US-Register für klinische Studien
- Klinische Studie NCT07328815
Minderung von Automatisierungsverzerrung in der ärztlichen LLM-Diagnosereasoning durch Verhaltensnudges
Das Ziel dieser randomisierten kontrollierten Studie ist es, zu bewerten, ob Verhaltensanreize den Automatisierungsbias, die unkritische Akzeptanz automatisierter Ergebnisse, bei Ärzten reduzieren können, die große Sprachmodelle (LLM) wie ChatGPT-5.1 für klinische Entscheidungsfindung nutzen.
Die Hauptfrage, die beantwortet werden soll, lautet: Reduziert eine Intervention mit einem dualen Verhaltensanreiz (Baseline-Genauigkeitsverankerung plus fallbezogene farbcodierte Vertrauenssignale) die unkritische Akzeptanz falscher LLM-Empfehlungen durch Ärzte?
Forscher werden Ärzte, die LLM-Empfehlungen zusammen mit einem Verhaltensanreiz erhalten, mit denen vergleichen, die LLM-Empfehlungen ohne den Anreiz erhalten, um zu bewerten, ob der Anreiz den Automatisierungsbias reduziert.
Die Teilnehmer werden:
- Sechs klinische Vignetten bewerten, die von LLM-generierten Empfehlungen begleitet werden (die Hälfte enthält absichtliche, klinisch signifikante Fehler).
- Kontrollgruppe: LLM-Empfehlungen im Standardformat ohne den Anreiz anzeigen können.
- Behandlungsgruppe: Die diagnostische Genauigkeit von ChatGPT auf Standardmedizindatensätzen als anfänglichen Anker anzeigen können, dann farbcodierte Vertrauenssignale neben jeder Empfehlung erhalten (z.B. rot für geringes Vertrauen).
- Ihre Antworten von verblindeten Gutachtern bewerten lassen, die ein von Experten entwickeltes Bewertungsraster verwenden, um unkritische Akzeptanz fehlerhafter Informationen zu erkennen.
Studienübersicht
Status
Bedingungen
Intervention / Behandlung
Detaillierte Beschreibung
Automatisierungsbias stellt eine kritische Herausforderung in der modernen klinischen Praxis dar, insbesondere da künstliche Intelligenz (KI)-Werkzeuge zunehmend in Gesundheitsarbeitsabläufe eingebettet werden. Dieses kognitive Phänomen beschreibt die Tendenz von Klinikern, Vorschläge von automatisierten Entscheidungssystemen zu bevorzugen, selbst wenn diese Vorschläge falsch sind. Da große Sprachmodelle (LLM) wie ChatGPT-5.1 in medizinischen Umgebungen an Bedeutung gewinnen, muss ihr Potenzial zur Reduzierung von Fehlern und Verbesserung der Effizienz gegen ein wesentliches Problem abgewogen werden: Diese Modelle fehlt eine rigorose medizinische Validierung und könnten bestehende kognitive Verzerrungen durch falsche oder irreführende Empfehlungen verstärken.
Das Auftreten von Automatisierungsbias in medizinischen Kontexten spiegelt ein komplexes Zusammenspiel von Umwelt- und psychologischen Faktoren wider. Zeitdruck in klinischen Umgebungen mit hohem Aufkommen erzeugt Druck, KI-generierte Empfehlungen ohne angemessene Prüfung zu akzeptieren. Finanzielle Anreize, die Effizienz über Gründlichkeit priorisieren, könnten die für eine fundierte klinische Urteilsbildung notwendige kritische Bewertung weiter entmutigen. Kognitive Ermüdung während langer Schichten verringert die Fähigkeit der Ärzte zu anhaltendem analytischem Denken. Diese Druckfaktoren interagieren mit psychologischen Mechanismen einschließlich Verantwortungsdiffusion, Überbewertung technologischer Lösungen und kognitiver Entlastung, und schaffen gemeinsam Bedingungen, unter denen eine unkritische Akzeptanz KI-generierter Empfehlungen wahrscheinlicher wird.
Diese randomisierte kontrollierte Studie bewertet die Wirksamkeit einer Verhaltensnudge-Intervention, die darauf ausgelegt ist, Automatisierungsbias bei Medizinern, die LLM-generierte Diagnoseempfehlungen nutzen, zu mildern. Das primäre Ziel ist festzustellen, ob diese Intervention die Leistungswerte im diagnostischen Denken bei der Auswertung klinischer Vignetten verbessert, die absichtlich fehlerhafte LLM-Empfehlungen enthalten. Sekundäre Ziele umfassen die Bewertung, ob das Erfahrungsniveau, das Geschlecht und die bisherige LLM-Erfahrung der Ärzte die Wirksamkeit der Intervention moderieren, sowie die Bestimmung differenzieller Wirksamkeit für Vignetten über verschiedene Konfidenzsignale hinweg.
Diese Studie verwendet ein einfach verblindetes, randomisiertes kontrolliertes Design mit zwei parallelen Armen. Die Teilnehmer werden im Verhältnis 1:1 entweder dem Interventions- oder dem Kontrollarm zufällig zugewiesen. Um Variabilität durch Unterschiede in Prompting-Fähigkeiten zu eliminieren, interagieren die Teilnehmer nicht direkt mit einer Live-LLM-Schnittstelle. Stattdessen nutzen alle Teilnehmer eine maßgeschneiderte Webplattform, die klinische Vignetten mit vorab generierten LLM-Empfehlungen anzeigt, wodurch identischer LLM-generierter Inhalt für jede Vignette sichergestellt wird.
Alle Teilnehmer bewerten sechs klinische Vignetten während einer einzigen, beaufsichtigten Sitzung von etwa 75 Minuten. Drei Vignetten enthalten absichtlich eingeführte klinische Denkfehler in den LLM-Empfehlungen, während drei korrekte Empfehlungen enthalten. Die Vignetten werden in randomisierter Reihenfolge präsentiert, um Mustererkennung zu verhindern.
Teilnehmer im Kontrollarm bewerten klinische Vignetten mit von ChatGPT generierten LLM-Diagnoseempfehlungen, die in einem standardmäßigen, neutralen Textformat ohne zusätzliche Kontextinformationen dargestellt werden. Teilnehmer im Interventionsarm bewerten dieselben Vignetten zusammen mit einem Verhaltensnudge. Diese Intervention besteht aus zwei synchronisierten kognitiven Hinweisen: (1) einem Ankerhinweis, der die Basis-Diagnosegenauigkeit von ChatGPT auf Standardmedizindatensätzen oben im Interface-Panel anzeigt und damit explizit die Erwartungen an die Fehlbarkeit des Modells anpasst, und (2) einem selektiven Aufmerksamkeitshinweis, der die LLM-Empfehlung zusammen mit einem farbcodierten Konfidenzsignal anzeigt, das durch eine Ensemble-Bewertung generiert wird: drei unabhängige, hochmoderne LLMs (Claude Sonnet 4.5, Gemini 2.5 Pro Thinking und GPT-5.1) geben jeweils Konfidenzbewertungen für die Empfehlung ab, und die mittlere Konfidenz bestimmt die Signalfarbe, um Fehlkalibrierung einzelner Modelle abzumildern.
Die farbcodierten Konfidenzsignale werden basierend auf der mittleren Konfidenz des Ensembles relativ zur Basis-Diagnosegenauigkeit in drei verschiedene Stufen kategorisiert. Rote Signale werden ausgelöst, wenn die mittlere Konfidenz unter die etablierte Basisgenauigkeit von ChatGPT fällt, wodurch explizit Fälle mit hoher Unsicherheit gekennzeichnet werden, die verstärkte kritische Prüfung erfordern. Orange Signale zeigen an, dass, obwohl die mittlere Konfidenz den Basis-Durchschnitt übersteigt, sie unter 100% bleibt, und signalisieren die Notwendigkeit fortgesetzter klinischer Wachsamkeit und Vermeidung von Selbstgefälligkeit. Schließlich sind grüne Signale für Instanzen mit 100% Ensemble-Konsens reserviert; jedoch bleiben selbst bei diesem Konfidenzniveau standardmäßige KI-Sicherheitswarnungen vorhanden, um einer Überabhängigkeit von der Systemausgabe vorzubeugen.
Den Teilnehmern werden sechs klinische Vignetten präsentiert, die speziell zur Messung von Automatisierungsbias entwickelt wurden und aus realen Fällen stammen und modifiziert wurden, die eine Bandbreite an diagnostischer Schwierigkeit und häufigen medizinischen Fachgebieten repräsentieren. Jede Vignette folgt einem standardisierten Format, einschließlich Hauptbeschwerde, Krankheitsgeschichte, relevanter medizinischer/sozialer/Familiengeschichte, körperlicher Untersuchungsbefunde und anfänglicher Laborergebnisse.
Das primäre Ergebnis ist der Leistungswert im diagnostischen Denken, ein zusammengesetzter Prozentwert basierend auf einem strukturierten Bewertungsraster, das bewertet: Qualität der Differentialdiagnosen, unterstützende Befunde, gegenteilige Befunde, Genauigkeit der endgültigen Diagnose und Angemessenheit der nächsten Schritte. Sekundäre Ergebnisse umfassen die Genauigkeit der Top-Wahl-Diagnose (falsch, teilweise korrekt oder korrekt). Alle Antworten werden von verblindeten Gutachtern unter Verwendung des Bewertungsrasters ausgewertet.
Studientyp
Einschreibung (Geschätzt)
Phase
- Unzutreffend
Kontakte und Standorte
Studienkontakt
- Name: Ihsan Ayyub Qazi, PhD
- Telefonnummer: 8368 +923233333766
- E-Mail: ihsan.qazi@lums.edu.pk
Studieren Sie die Kontaktsicherung
- Name: Ayesha Ali, PhD
- Telefonnummer: 8235 +923419494940
- E-Mail: ayeshaali@lums.edu.pk
Studienorte
-
-
Punjab Province
-
Lahore, Punjab Province, Pakistan, 54792
- Rekrutierung
- Lahore University of Management Sciences
-
Hauptermittler:
- Ihsan Ayyub Qazi, PhD
-
Kontakt:
- Ayesha Ali, PhD
- Telefonnummer: 8235 +923419494940
- E-Mail: ayeshaali@lums.edu.pk
-
Kontakt:
- Ihsan Ayyub Qazi, PhD
- Telefonnummer: +923233333766
- E-Mail: ihsan.qazi@lums.edu.pk
-
-
Teilnahmekriterien
Zulassungskriterien
Studienberechtigtes Alter
- Kind
- Erwachsene
- Älterer Erwachsener
Akzeptiert gesunde Freiwillige
Beschreibung
Einschlusskriterien:
- Voll oder vorläufig beim Pakistanischen Medizin- und Zahnärzterat (PMDC) registrierte Ärzte.
- Abgeschlossene Bachelor of Medicine, Bachelor of Surgery (MBBS)-Prüfung. Der gleichwertige Abschluss des MBBS in den USA und Kanada ist der Doctor of Medicine (MD).
- Die Teilnehmer müssen ein strukturiertes Schulungsprogramm zur Verwendung von ChatGPT (oder einem vergleichbaren großen Sprachmodell) absolviert haben, das insgesamt mindestens 10 Stunden Unterricht umfasst. Das Programm muss praktische Übungen zu den Schlüsselaspekten von LLMs umfassen, insbesondere Prompt Engineering und Inhaltsbewertung.
Ausschlusskriterien:
- Alle anderen beim PMDC registrierten Ärzte (voll oder vorläufig) (z. B. Fachleute mit einem Bachelor of Dental Surgery oder BDS).
Studienplan
Wie ist die Studie aufgebaut?
Designdetails
- Hauptzweck: Diagnose
- Zuteilung: Zufällig
- Interventionsmodell: Parallele Zuordnung
- Maskierung: Single
Waffen und Interventionen
Teilnehmergruppe / Arm |
Intervention / Behandlung |
|---|---|
|
Aktiver Komparator: ChatGPT-Empfehlungen zusammen mit einem Verhaltensanreiz
Die Teilnehmer werden sechs klinische Vignetten bewerten.
Während der Studie haben sie Zugang zu klinischen Empfehlungen eines bestimmten, kommerziell erhältlichen LLM (ChatGPT) zusätzlich zu konventionellen diagnostischen Ressourcen.
Die LLM-Empfehlungen für drei Vignetten enthalten absichtlich fehlerhafte diagnostische Informationen und für drei Vignetten enthalten sie genaue Empfehlungen.
Die Fälle werden in zufälliger Reihenfolge präsentiert.
Die Teilnehmer in diesem Arm erhalten einen verhaltensbezogenen Nudge, der in die LLM-Empfehlungsoberfläche eingebettet ist und zwei synchronisierte kognitive Hinweise anzeigt, wenn das LLM-Panel erweitert wird: (1) einen Ankerhinweis, der die Baseline-Diagnosegenauigkeit von ChatGPT auf standardisierten medizinischen Datensätzen oben im Panel anzeigt, um realistische Erwartungen zu setzen, gefolgt von einem Interventionshinweis direkt darunter, der die LLM-Empfehlungen zusammen mit einem fallbezogenen farbkodierten Konfidenzsignal zeigt.
|
Teilnehmer in der Behandlungsgruppe erhalten eine Verhaltensnudge-Intervention, die in die LLM-Empfehlungsschnittstelle eingebettet ist und zwei synchronisierte kognitive Hinweise anzeigt, wenn das LLM-Panel erweitert wird: (1) einen Ankerhinweis, der die Basisdiagnosegenauigkeit von ChatGPT auf standardisierten medizinischen Datensätzen oben im Panel anzeigt, um realistische Erwartungen zu setzen, bevor die spezifische Empfehlung betrachtet wird, und (2) einen selektiven Aufmerksamkeitshinweis direkt darunter, der die LLM-Empfehlung zusammen mit einem fallbezogenen und farbcodierten Konfidenzsignal zeigt.
Dieses Signal wird als rot kategorisiert, wenn die durchschnittliche Ensemble-Konfidenz unter der festgelegten Basisgenauigkeit liegt, um Fälle mit hoher Unsicherheit zu kennzeichnen, die eine kritische Bewertung erfordern; orange, wenn die Konfidenz die Basisgenauigkeit erreicht oder übertrifft, aber unter 100 % bleibt, um Selbstzufriedenheit zu verhindern und aktive klinische Überprüfung aufrechtzuerhalten; und grün für einen 100 %igen Ensemble-Konsens, wobei jedoch standardmäßige Vorsichtswarnungen weiterhin gelten, um dagegen zu schützen.
|
|
Kein Eingriff: ChatGPT-Empfehlungen ohne einen Verhaltensanreiz
Die Teilnehmer werden sechs klinische Vignetten bewerten.
Während der Studie haben sie Zugang zu klinischen Empfehlungen von einem spezifischen, kommerziell erhältlichen LLM (ChatGPT) zusätzlich zu konventionellen diagnostischen Ressourcen.
Die LLM-Empfehlungen für drei Vignetten werden absichtlich fehlerhafte diagnostische Informationen enthalten.
Die Fälle werden in zufälliger Reihenfolge präsentiert.
Die Teilnehmer in diesem Studienarm erhalten keinen Verhaltensanstoß.
|
Was misst die Studie?
Primäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
Diagnostische Bewertung der Genauigkeit der klinischen Beurteilung
Zeitfenster: Bei jedem Fall zu einem einzelnen Zeitpunkt bewertet, während der geplanten Diagnosereasoning-Bewertungssitzung, die zwischen 0-5 Tagen nach der Teilnehmeraufnahme stattfindet.
|
Das primäre Ergebnis ist der prozentuale Anteil der korrekten Antworten für jeden Fall, der von 0 bis 100 % reicht, wobei höhere Werte eine bessere diagnostische Leistung anzeigen.
Für jeden Fall werden die Teilnehmer nach ihren drei Hauptdiagnosen, den Befunden, die jede Diagnose unterstützen, und den Befunden, die jeder Diagnose widersprechen, gefragt.
Für jede plausible Diagnose erhalten die Teilnehmer 1 Punkt.
Befunde, die die Diagnose unterstützen, und Befunde, die der Diagnose widersprechen, werden ebenfalls nach ihrer Richtigkeit bewertet, wobei es für jede korrekte Antwort 1 Punkt gibt.
Die Teilnehmer werden dann gebeten, ihre Top-Diagnose zu nennen, von der sie glauben, dass sie am wahrscheinlichsten ist, wobei sie für eine vernünftige Antwort 9 Punkte und für die genaueste Antwort 18 Punkte erhalten.
Schließlich werden die Teilnehmer gebeten, bis zu 3 nächste Schritte zur weiteren Untersuchung des Patienten zu nennen, wobei für eine teilweise korrekte Antwort 0,5 Punkte und für eine vollständig korrekte Antwort 1 Punkt vergeben wird.
Das primäre Ergebnis wird auf Fallbasis zwischen den randomisierten Gruppen verglichen.
|
Bei jedem Fall zu einem einzelnen Zeitpunkt bewertet, während der geplanten Diagnosereasoning-Bewertungssitzung, die zwischen 0-5 Tagen nach der Teilnehmeraufnahme stattfindet.
|
Sekundäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
Top-Choice-Diagnose-Genauigkeitswert
Zeitfenster: Für jeden Fall zu einem einzelnen Zeitpunkt bewertet, während der geplanten diagnostischen Entscheidungsfindungssitzung, die zwischen 0-5 Tagen nach der Teilnehmeraufnahme stattfindet.
|
Das sekundäre Ergebnis misst die Leistung der Teilnehmer bei der Identifizierung der wahrscheinlichsten Diagnose für jede klinische Vignette.
Nach der Bewertung jedes Falls wählen die Teilnehmer ihre einzige wahrscheinlichste Diagnose aus, die auf einer vordefinierten Drei-Stufen-Diagnosegenauigkeitsskala bewertet wird: 18 Punkte für die genaueste Diagnose, 9 Punkte für eine klinisch sinnvolle Alternative und 0 Punkte für eine falsche Diagnose.
Für jeden Teilnehmer wird ein Top-Choice-Diagnosegenauigkeitswert berechnet als (Gesamtpunkte ÷ maximal mögliche Punkte) × 100, was einen Bereich von 0-100 % ergibt, in dem höhere Werte eine größere Diagnosegenauigkeit anzeigen.
Dieser Prozentwert wird auf Fall-Ebene zwischen den randomisierten Gruppen verglichen, um die Auswirkung des Automatisierungsbias auf die diagnostische Entscheidungsfindung zu quantifizieren.
|
Für jeden Fall zu einem einzelnen Zeitpunkt bewertet, während der geplanten diagnostischen Entscheidungsfindungssitzung, die zwischen 0-5 Tagen nach der Teilnehmeraufnahme stattfindet.
|
Mitarbeiter und Ermittler
Ermittler
- Hauptermittler: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
- Hauptermittler: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
- Hauptermittler: Ali Zafar Sheikh, MBBS, Lahore General Hospital
- Hauptermittler: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
- Hauptermittler: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)
Studienaufzeichnungsdaten
Haupttermine studieren
Studienbeginn (Tatsächlich)
Primärer Abschluss (Geschätzt)
Studienabschluss (Geschätzt)
Studienanmeldedaten
Zuerst eingereicht
Zuerst eingereicht, das die QC-Kriterien erfüllt hat
Zuerst gepostet (Tatsächlich)
Studienaufzeichnungsaktualisierungen
Letztes Update gepostet (Tatsächlich)
Letztes eingereichtes Update, das die QC-Kriterien erfüllt
Zuletzt verifiziert
Mehr Informationen
Begriffe im Zusammenhang mit dieser Studie
Schlüsselwörter
Zusätzliche relevante MeSH-Bedingungen
Andere Studien-ID-Nummern
- LUMS-IRB-0412/12192025/IAQ-FWA
Plan für individuelle Teilnehmerdaten (IPD)
Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?
Arzneimittel- und Geräteinformationen, Studienunterlagen
Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt
Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt
Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .
Klinische Studien zur Verhaltensnudge-Intervention
-
Milton S. Hershey Medical CenterRekrutierungADHSVereinigte Staaten
-
Massachusetts General HospitalUniversity of Massachusetts, BostonAbgeschlossenPsychologischer Stress
-
The University of Texas Health Science Center,...Eunice Kennedy Shriver National Institute of Child Health and Human Development...AbgeschlossenKandidat für bariatrische Chirurgie | Fettleibigkeit, JugendlicherVereinigte Staaten
-
Sarah MorrowLawson Health Research InstituteAbgeschlossen
-
University of South CarolinaNoch keine RekrutierungFettleibigkeit | Adipositas Typ 2 Diabetes Mellitus
-
Creighton UniversityNational Institutes of Health (NIH)AbgeschlossenLeichte kognitive Einschränkung | Burnout der PflegekraftVereinigte Staaten
-
University of OxfordOxford University Hospitals NHS TrustUnbekanntVerhaltenssymptomeVereinigtes Königreich
-
Hospital Authority, Hong KongThe University of Hong KongZurückgezogenSchizophrenie | PsychoseHongkong
-
Taipei Medical UniversityAktiv, nicht rekrutierendEmotionale Störung | Neuroentwicklungsstörungen | VerhaltensstörungenTaiwan
-
University of ZadarGeneral Hospital Zadar; Psychiatric Hospital Ugljan; School of Public Health Andrija... und andere MitarbeiterNoch keine RekrutierungSchlafstörung | Betonen | Metabolisches Syndrom | Angst | Rauchverhalten | Ungesunde Diät | Depressive Stimmung | Ungesunder Alkoholkonsum | Adipositas & Übergewicht | Emotionales Essverhalten | Inaktivität/geringe körperliche BetätigungKroatien