- ICH GCP
- Registr klinických studií v USA
- Klinická studie NCT07328815
Zmírnění automatizační zaujatosti v diagnostické úvaze lékaře a LLM pomocí behaviorálních pobídek
Zmírnění automatizačního zkreslení v diagnostickém uvažování lékařů a LLM pomocí behaviorálních podnětů
Cílem této randomizované kontrolované studie je vyhodnotit, zda behaviorální podněty mohou snížit automatizační zaujatost, nekritické přijímání automatizovaných výstupů, u lékařů používajících velké jazykové modely (LLM), jako je ChatGPT-5.1, pro klinické rozhodování.
Hlavní otázka, na kterou si klade za cíl odpovědět, zní: Snižuje dvojmechanismová behaviorální podnětová intervence (kotvení základní přesnosti plus případově specifické barevně kódované signály spolehlivosti) nekritické přijímání nesprávných doporučení LLM u lékařů?
Výzkumníci porovnají lékaře, kteří obdrží doporučení LLM spolu s behaviorálním podnětem, s těmi, kteří obdrží doporučení LLM bez podnětu, aby posoudili, zda podnět snižuje automatizační zaujatost.
Účastníci budou:
- Vyhodnocovat šest klinických vinět doprovázených doporučeními generovanými LLM (polovina obsahuje záměrné, klinicky významné chyby).
- Kontrolní skupina: Budou moci prohlížet doporučení LLM ve standardním formátu bez podnětu.
- Intervenční skupina: Budou moci zobrazit diagnostickou přesnost ChatGPT na standardních lékařských datových souborech jako výchozí kotvu, poté obdrží barevně kódované signály spolehlivosti spolu s každým doporučením (např. červená pro nízkou spolehlivost).
- Jejich odpovědi budou vyhodnoceny zaslepenými posuzovateli pomocí expertně vyvinutého hodnoticího rámce k detekci nekritického přijetí chybných informací.
Přehled studie
Detailní popis
Automatizační zkreslení představuje zásadní výzvu v moderní klinické praxi, zejména s tím, jak se nástroje umělé inteligence (AI) stále více začleňují do pracovních postupů ve zdravotnictví. Tento kognitivní jev popisuje tendenci kliniků upřednostňovat návrhy automatizovaných systémů pro rozhodování, i když jsou tyto návrhy nesprávné. Jak velké jazykové modely (LLM), jako je ChatGPT-5.1, získávají na významu v lékařském prostředí, je třeba jejich potenciál ke snížení chyb a zlepšení efektivity porovnat se závažným problémem: tyto modely postrádají důkladné lékařské ověření a mohou zesilovat stávající kognitivní zkreslení prostřednictvím nesprávných nebo zavádějících doporučení.
Vznik automatizačního zkreslení v lékařském kontextu odráží složitou interakci environmentálních a psychologických faktorů. Časová omezení v klinických zařízeních s vysokým objemem práce vytvářejí tlak na přijetí doporučení generovaných AI bez dostatečné kontroly. Finanční pobídky, které upřednostňují efektivitu před důkladností, mohou dále odrazovat od kritického hodnocení nezbytného pro správné klinické rozhodování. Kognitivní únava během dlouhých směn snižuje schopnost lékařů trvale analyticky myslet. Tyto tlaky interagují s psychologickými mechanismy včetně rozptýlení odpovědnosti, přehnané důvěry v technologická řešení a kognitivního odbřemenění, což společně vytváří podmínky, za kterých je nekritické přijímání doporučení generovaných AI pravděpodobnější.
Tato randomizovaná kontrolovaná studie hodnotí účinnost behaviorálního nudge zásahu navrženého ke zmírnění automatizačního zkreslení u lékařů využívajících diagnostická doporučení generovaná LLM. Primárním cílem je zjistit, zda tento zásah zlepšuje skóre výkonu diagnostické úvahy při hodnocení klinických vinět, které zahrnují záměrně chybná doporučení LLM. Vedlejší cíle zahrnují posouzení, zda úroveň zkušeností lékaře, pohlaví a předchozí zkušenost s LLM moderují účinnost zásahu, a určení rozdílné účinnosti pro viněty napříč různými signály důvěry.
Tato studie používá jednoduše zaslepenou, randomizovanou kontrolovanou studii se dvěma paralelními rameny. Účastníci budou náhodně přiřazeni v poměru 1:1 buď k intervenčnímu, nebo kontrolnímu rameni. Aby se eliminovala variabilita způsobená rozdíly v dovednostech zadávání promptů, účastníci nebudou přímo interagovat s živým rozhraním LLM. Místo toho všichni účastníci použijí vlastní webovou platformu zobrazující klinické viněty s předem vygenerovanými doporučeními LLM, což zajistí identický obsah generovaný LLM pro každou vinětu.
Všichni účastníci vyhodnotí šest klinických vinět během jedné, dozorované relace trvající přibližně 75 minut. Tři viněty budou obsahovat záměrně zavedené chyby v klinické úvaze v doporučeních LLM, zatímco tři budou obsahovat správná doporučení. Viněty budou prezentovány v náhodném pořadí, aby se zabránilo detekci vzorů.
Účastníci v kontrolním rameni vyhodnotí klinické viněty s diagnostickými doporučeními LLM generovanými ChatGPT prezentovanými ve standardním, neutrálním textovém formátu bez dalších kontextových informací. Účastníci v intervenčním rameni vyhodnotí stejné viněty spolu s behaviorálním nudge. Tento zásah se skládá ze dvou synchronizovaných kognitivních podnětů: (1) ukotvující podnět zobrazující základní diagnostickou přesnost ChatGPT na standardních lékařských datových sadách v horní části panelu rozhraní, což explicitně ukotvuje očekávání k omylnosti modelu, a (2) selektivní pozornostní podnět zobrazující doporučení LLM spolu s barevně kódovaným signálem důvěry generovaným prostřednictvím souborového hodnocení: tři nezávislé špičkové LLM (Claude Sonnet 4.5, Gemini 2.5 Pro Thinking a GPT-5.1) poskytnou každý hodnocení důvěry pro doporučení a průměrná důvěra určuje barvu signálu, aby se zmírnilo nesprávné kalibrování jednotlivého modelu.
Barevně kódované signály důvěry jsou kategorizovány do tří různých úrovní na základě průměrné důvěry souboru ve vztahu k základní diagnostické přesnosti. Červené signály se spustí, když průměrná důvěra klesne pod stanovenou základní přesnost ChatGPT, což explicitně označuje případy s vysokou nejistotou, které vyžadují zvýšenou kritickou kontrolu. Oranžové signály naznačují, že zatímco průměrná důvěra překračuje základní průměr, zůstává pod 100 %, což signalizuje potřebu pokračující klinické bdělosti a vyhýbání se sebeuspokojení. Konečně zelené signály jsou vyhrazeny pro případy 100% shody souboru; avšak i na této úrovni důvěry zůstávají přítomna standardní bezpečnostní varování AI, aby se zabránilo nadměrné závislosti na výstupu systému.
Účastníkům bude představeno šest klinických vinět speciálně navržených k měření automatizačního zkreslení, získaných a upravených z reálných případů představujících škálu diagnostické obtížnosti a běžných lékařských specializací. Každá viněta sleduje standardizovaný formát včetně hlavní stížnosti, anamnézy současného onemocnění, relevantní minulé lékařské/sociální/rodinné anamnézy, nálezů fyzikálního vyšetření a počátečních laboratorních výsledků.
Primárním výsledkem je Skóre výkonu diagnostické úvahy, složené procentuální skóre založené na strukturované rubrice hodnotící: kvalitu diferenciálních diagnóz, podpůrné nálezy, protichůdné nálezy, přesnost konečné diagnózy a vhodnost dalších kroků. Vedlejší výsledky zahrnují přesnost diagnózy první volby (nesprávná, částečně správná nebo správná). Všechny odpovědi budou hodnoceny zaslepenými posuzovateli pomocí hodnotící rubriky.
Typ studie
Zápis (Odhadovaný)
Fáze
- Nelze použít
Kontakty a umístění
Studijní kontakt
- Jméno: Ihsan Ayyub Qazi, PhD
- Telefonní číslo: 8368 +923233333766
- E-mail: ihsan.qazi@lums.edu.pk
Studijní záloha kontaktů
- Jméno: Ayesha Ali, PhD
- Telefonní číslo: 8235 +923419494940
- E-mail: ayeshaali@lums.edu.pk
Studijní místa
-
-
Punjab Province
-
Lahore, Punjab Province, Pákistán, 54792
- Nábor
- Lahore University of Management Sciences
-
Vrchní vyšetřovatel:
- Ihsan Ayyub Qazi, PhD
-
Kontakt:
- Ayesha Ali, PhD
- Telefonní číslo: 8235 +923419494940
- E-mail: ayeshaali@lums.edu.pk
-
Kontakt:
- Ihsan Ayyub Qazi, PhD
- Telefonní číslo: +923233333766
- E-mail: ihsan.qazi@lums.edu.pk
-
-
Kritéria účasti
Kritéria způsobilosti
Věk způsobilý ke studiu
- Dítě
- Dospělý
- Starší dospělý
Přijímá zdravé dobrovolníky
Popis
Kritéria pro zařazení:
- Plně nebo prozatímně registrovaní lékaři s Pákistánskou lékařskou a zubní radou (PMDC).
- Úspěšně složená zkouška Bachelor of Medicine, Bachelor of Surgery (MBBS). Ekvivalentní titul k MBBS v USA a Kanadě je Doctor of Medicine (MD).
- Účastníci musí absolvovat strukturovaný výcvikový program o používání ChatGPT (nebo srovnatelného velkého jazykového modelu) v celkovém rozsahu minimálně 10 hodin výuky. Program musí zahrnovat praktické cvičení týkající se klíčových aspektů LLM, konkrétně inženýrství promptů a hodnocení obsahu.
Kritéria pro vyloučení:
- Jakýkoli jiný registrovaný lékař (plně nebo prozatímně) s PMDC (např. odborníci s titulem Bachelor of Dental Surgery nebo BDS).
Studijní plán
Jak je studie koncipována?
Detaily designu
- Primární účel: Diagnostický
- Přidělení: Randomizované
- Intervenční model: Paralelní přiřazení
- Maskování: Singl
Zbraně a zásahy
Skupina účastníků / Arm |
Intervence / Léčba |
|---|---|
|
Aktivní komparátor: ChatGPT Doporučení spolu s Behaviorálním Podnětem
Účastníci vyhodnotí šest klinických kasuistik.
Během studie budou mít k dispozici klinická doporučení z konkrétního komerčně dostupného LLM (ChatGPT) kromě konvenčních diagnostických zdrojů.
Doporučení LLM u tří kasuistik budou obsahovat záměrně chybné diagnostické informace a u tří kasuistik budou obsahovat přesná doporučení).
Případy budou prezentovány v náhodném pořadí.
Účastníci v této skupině obdrží behaviorální podnět zabudovaný do rozhraní doporučení LLM, který zobrazí dvě synchronizované kognitivní pobídky při rozbalení panelu LLM: (1) ukotvující pobídku zobrazující základní diagnostickou přesnost ChatGPT na standardních lékařských datových sadách v horní části panelu pro nastavení realistických očekávání před zásahem pobídky umístěným bezprostředně pod ní, která zobrazuje doporučení LLM spolu s barevně kódovaným signálem důvěry specifickým pro daný případ.
|
Účastníci v léčebné skupině obdrží behaviorální nudge intervenci zabudovanou v rozhraní doporučení LLM, která při rozbalení panelu LLM zobrazí dvě synchronizované kognitivní podněty: (1) ukotvující podnět zobrazující základní diagnostickou přesnost ChatGPT na standardních lékařských souborech dat v horní části panelu, aby nastavil realistická očekávání před zobrazením konkrétního doporučení, a (2) selektivní pozornostní podnět umístěný přímo pod ním, který ukazuje doporučení LLM spolu s případově specifickým a barevně kódovaným signálem spolehlivosti.
Tento signál je kategorizován jako červený, když průměrná souhrnná spolehlivost klesne pod stanovenou základní přesnost, označující případy s vysokou nejistotou, které vyžadují kritické vyhodnocení; oranžový, když spolehlivost dosáhne nebo překročí základní úroveň, ale zůstane pod 100%, určený k prevenci sebeuspokojení a udržení aktivního klinického dohledu; a zelený pro 100% souhrnný konsenzus, přičemž standardní varovná upozornění stále platí, aby se zabránilo rizikům.
|
|
Žádný zásah: ChatGPT Doporučení bez Behaviorálního Popostrčení
Účastníci vyhodnotí šest klinických kazuistik.
Během studie budou mít kromě konvenčních diagnostických zdrojů přístup ke klinickým doporučením od konkrétního komerčně dostupného LLM (ChatGPT).
Doporučení LLM pro tři kazuistiky budou obsahovat záměrně chybné diagnostické informace.
Případy budou prezentovány v náhodném pořadí.
Účastníci v této větvi neobdrží žádný behaviorální podnět.
|
Co je měření studie?
Primární výstupní opatření
Měření výsledku |
Popis opatření |
Časové okno |
|---|---|---|
|
Přesnost skóre diagnostického uvažování
Časové okno: Hodnoceno v jednom časovém bodě pro každý případ během plánovaného sezení diagnostického uvažování, které probíhá 0–5 dní po zařazení účastníka do studie.
|
Primárním výsledkem bude procento správných odpovědí pro každý případ v rozmezí od 0 do 100 %, přičemž vyšší skóre znamená lepší diagnostickou výkonnost.
Pro každý případ budou účastníci požádáni o tři hlavní diagnózy, nálezy podporující každou diagnózu a nálezy odporující každé diagnóze.
Za každou pravděpodobnou diagnózu obdrží účastníci 1 bod.
Nálezy podporující diagnózu a nálezy odporující diagnóze budou také hodnoceny na základě správnosti, přičemž za každou správnou odpověď bude udělen 1 bod.
Účastníci pak budou požádáni, aby pojmenovali svou hlavní diagnózu, o které se domnívají, že je nejpravděpodobnější, přičemž za rozumnou odpověď získají 9 bodů a za nejpřesnější odpověď 18 bodů.
Nakonec budou účastníci požádáni, aby pojmenovali až 3 další kroky k dalšímu vyhodnocení pacienta, přičemž za částečně správnou odpověď bude uděleno 0,5 bodu a za zcela správnou odpověď 1 bod.
Primární výsledek bude porovnán na úrovni případů mezi randomizovanými skupinami.
|
Hodnoceno v jednom časovém bodě pro každý případ během plánovaného sezení diagnostického uvažování, které probíhá 0–5 dní po zařazení účastníka do studie.
|
Sekundární výstupní opatření
Měření výsledku |
Popis opatření |
Časové okno |
|---|---|---|
|
Skóre přesnosti diagnózy nejvyšší volby
Časové okno: Vyhodnoceno v jediném časovém bodě pro každý případ během naplánovaného sezení diagnostického uvažování, které probíhá 0-5 dnů po zařazení účastníka do studie.
|
Sekundárním výsledkem bude měření výkonu účastníků při identifikaci nejpravděpodobnější diagnózy pro každou klinickou vinětu.
Po vyhodnocení každého případu účastníci vyberou jedinou nejpravděpodobnější diagnózu, která bude hodnocena na předem stanovené třístupňové stupnici diagnostické přesnosti: 18 bodů za nejpřesnější diagnózu, 9 bodů za klinicky rozumnou alternativu a 0 bodů za nesprávnou diagnózu.
Pro každého účastníka se vypočítá Skóre přesnosti hlavní volby diagnózy jako (celkový počet získaných bodů ÷ maximální možný počet bodů) × 100, což poskytne rozsah 0–100 %, kde vyšší skóre indikuje větší diagnostickou přesnost.
Toto procentuální skóre bude porovnáno na úrovni případů mezi randomizovanými skupinami, aby se kvantifikoval vliv automatizačního zkreslení na diagnostické rozhodování.
|
Vyhodnoceno v jediném časovém bodě pro každý případ během naplánovaného sezení diagnostického uvažování, které probíhá 0-5 dnů po zařazení účastníka do studie.
|
Spolupracovníci a vyšetřovatelé
Vyšetřovatelé
- Vrchní vyšetřovatel: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
- Vrchní vyšetřovatel: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
- Vrchní vyšetřovatel: Ali Zafar Sheikh, MBBS, Lahore General Hospital
- Vrchní vyšetřovatel: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
- Vrchní vyšetřovatel: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)
Termíny studijních záznamů
Hlavní termíny studia
Začátek studia (Aktuální)
Primární dokončení (Odhadovaný)
Dokončení studie (Odhadovaný)
Termíny zápisu do studia
První předloženo
První předloženo, které splnilo kritéria kontroly kvality
První zveřejněno (Aktuální)
Aktualizace studijních záznamů
Poslední zveřejněná aktualizace (Aktuální)
Odeslaná poslední aktualizace, která splnila kritéria kontroly kvality
Naposledy ověřeno
Více informací
Termíny související s touto studií
Klíčová slova
Další relevantní podmínky MeSH
Další identifikační čísla studie
- LUMS-IRB-0412/12192025/IAQ-FWA
Plán pro data jednotlivých účastníků (IPD)
Plánujete sdílet data jednotlivých účastníků (IPD)?
Informace o lécích a zařízeních, studijní dokumenty
Studuje lékový produkt regulovaný americkým FDA
Studuje produkt zařízení regulovaný americkým úřadem FDA
Tyto informace byly beze změn načteny přímo z webu clinicaltrials.gov. Máte-li jakékoli požadavky na změnu, odstranění nebo aktualizaci podrobností studie, kontaktujte prosím register@clinicaltrials.gov. Jakmile bude změna implementována na clinicaltrials.gov, bude automaticky aktualizována i na našem webu .
Klinické studie na Diagnóza
-
University Hospital, GrenobleSociété Française d'Anesthésie et de RéanimationDokončenoVýkon eFast Diagnosis při vedení první pomoci při resuscitaci a hemostázeFrancie
Klinické studie na Behaviorální intervenční podnět
-
Sarah MorrowLawson Health Research InstituteDokončeno
-
The Miriam HospitalNational Institute of Diabetes and Digestive and Kidney Diseases (NIDDK); Brown... a další spolupracovníciNábor
-
Queen's UniversityCanadian Institutes of Health Research (CIHR)Dokončeno
-
Fenway Community HealthNational Institute of Mental Health (NIMH)DokončenoHIV infekceSpojené státy
-
Network for Engineering and Economics Research...DokončenoAntikoncepce | Těhotenská anémie z nedostatku železa | Předporodní péče | Poporodní péčeIndie
-
University of California, BerkeleyUniversity of California, San Francisco; University of California, IrvineNáborDeprese, úzkostSpojené státy
-
Instituto Politécnico de LeiriaZatím nenabírámeFrekvence léčebného protokolu
-
University of CalgaryAlberta Health services; Mint Health + DrugsAktivní, ne náborMrtvice | Vakcíny proti chřipce | Nemoci související s cestováním | Lidská chřipka | Změna zdravotního chováníKanada
-
The University of Hong KongZatím nenabírámePsychická pohoda | Pečovatelská zátěž pečovatelů
-
Università Vita-Salute San RaffaeleZatím nenabíráme