- ICH GCP
- Rejestr badań klinicznych w USA
- Badanie kliniczne NCT07328815
Łagodzenie Błędu Automatyzacji w Diagnostycznym Rozumowaniu Lekarza-LLM przy Użyciu Bodźców Behawioralnych
Łagodzenie błędów automatyzacji w rozumowaniu diagnostycznym lekarzy i modeli językowych przy użyciu bodźców behawioralnych
Celem tego randomizowanego kontrolowanego badania jest ocena, czy behawioralne „popychacze” (nudges) mogą zmniejszyć zjawisko uprzedzenia automatyzacji, czyli bezkrytycznego akceptowania wyników automatycznych, u lekarzy korzystających z dużych modeli językowych (LLM), takich jak ChatGPT-5.1, w procesie podejmowania decyzji klinicznych.
Główne pytanie, na które badanie ma odpowiedzieć, brzmi: Czy interwencja behawioralna oparta na podwójnym mechanizmie (kotwiczenie w dokładności bazowej oraz sygnały pewności kodowane kolorystycznie dla konkretnych przypadków) zmniejsza bezkrytyczną akceptację błędnych rekomendacji LLM przez lekarzy?
Badacze porównają lekarzy, którzy otrzymują rekomendacje LLM wraz z behawioralnym „popychaczem”, z tymi, którzy otrzymują rekomendacje LLM bez „popychacza”, aby ocenić, czy „popychacz” redukuje uprzedzenie automatyzacji.
Uczestnicy będą:
- Oceniać sześć scenariuszy klinicznych wraz z rekomendacjami wygenerowanymi przez LLM (połowa zawierająca celowe, istotne klinicznie błędy).
- Grupa kontrolna: Będzie mogła przeglądać rekomendacje LLM w standardowym formacie bez „popychacza”.
- Grupa eksperymentalna: Będzie mogła zobaczyć dokładność diagnostyczną ChatGPT na standardowych zbiorach danych medycznych jako kotwicę początkową, a następnie otrzyma sygnały pewności kodowane kolorystycznie obok każdej rekomendacji (np. czerwony dla niskiej pewności).
- Ich odpowiedzi zostaną ocenione przez ślepo zakodowanych recenzentów przy użyciu opracowanej przez ekspertów rubryki oceny, aby wykryć bezkrytyczną akceptację błędnych informacji.
Przegląd badań
Status
Warunki
Interwencja / Leczenie
Szczegółowy opis
Błąd automatyzacji stanowi kluczowe wyzwanie we współczesnej praktyce klinicznej, szczególnie w miarę jak narzędzia sztucznej inteligencji (AI) są coraz bardziej wbudowywane w procesy opieki zdrowotnej. To zjawisko poznawcze opisuje tendencję klinicystów do faworyzowania sugestii pochodzących z zautomatyzowanych systemów wspomagania decyzji, nawet gdy te sugestie są nieprawidłowe. W miarę jak duże modele językowe (LLM), takie jak ChatGPT-5.1, zyskują popularność w środowiskach medycznych, ich potencjał do redukcji błędów i poprawy efektywności musi być rozważany na tle istotnego problemu: modele te nie przeszły rygorystycznej walidacji medycznej i mogą nasilać istniejące uprzedzenia poznawcze poprzez nieprawidłowe lub wprowadzające w błąd rekomendacje.
Pojawienie się błędu automatyzacji w kontekstach medycznych odzwierciedla złożoną interakcję czynników środowiskowych i psychologicznych. Ograniczenia czasowe w klinikach o dużym obciążeniu pacjentami wywierają presję na akceptację rekomendacji generowanych przez AI bez odpowiedniej weryfikacji. Zachęty finansowe, które priorytetyzują efektywność nad dokładność, mogą dodatkowo zniechęcać do krytycznej oceny niezbędnej dla trafnej decyzji klinicznej. Zmęczenie poznawcze podczas długich dyżurów zmniejsza zdolność lekarzy do utrzymanego myślenia analitycznego. Te presje współdziałają z mechanizmami psychologicznymi, w tym z rozproszeniem odpowiedzialności, nadmierną pewnością w rozwiązania technologiczne oraz odciążeniem poznawczym, wspólnie tworząc warunki, w których bezkrytyczna akceptacja rekomendacji generowanych przez AI staje się bardziej prawdopodobna.
To randomizowane badanie kontrolowane ocenia skuteczność interwencji behawioralnej typu 'nudge' (delikatne popchnięcie) zaprojektowanej w celu ograniczenia błędu automatyzacji wśród lekarzy wykorzystujących rekomendacje diagnostyczne generowane przez LLM. Głównym celem jest ustalenie, czy ta interwencja poprawia wyniki oceny rozumowania diagnostycznego podczas analizy przypadków klinicznych (vignettes), które zawierają celowo wprowadzone błędy w rekomendacjach LLM. Cele drugorzędne obejmują ocenę, czy poziom doświadczenia lekarza, płeć oraz wcześniejsze doświadczenie z LLM moderują skuteczność interwencji, oraz określenie różnic w skuteczności dla przypadków z różnymi sygnałami pewności.
Badanie to wykorzystuje pojedynczo ślepą próbę, randomizowane badanie kontrolowane z dwoma równoległymi ramionami. Uczestnicy zostaną losowo przydzieleni w stosunku 1:1 do ramienia interwencyjnego lub kontrolnego. Aby wyeliminować zmienność wynikającą z różnic w umiejętnościach formułowania zapytań (prompting), uczestnicy nie będą bezpośrednio wchodzić w interakcję z interfejsem działającego LLM. Zamiast tego wszyscy uczestnicy będą korzystać z dedykowanej platformy internetowej wyświetlającej przypadki kliniczne z wcześniej wygenerowanymi rekomendacjami LLM, zapewniając identyczną treść generowaną przez LLM dla każdego przypadku.
Wszyscy uczestnicy ocenią sześć przypadków klinicznych podczas jednej, nadzorowanej sesji trwającej około 75 minut. Trzy przypadki będą zawierać celowo wprowadzone błędy w rozumowaniu klinicznym w rekomendacjach LLM, podczas gdy trzy będą zawierać poprawne rekomendacje. Kolejność prezentacji przypadków będzie losowa, aby zapobiec wykrywaniu wzorców.
Uczestnicy z ramienia kontrolnego będą oceniać przypadki kliniczne z rekomendacjami diagnostycznymi LLM wygenerowanymi przez ChatGPT, przedstawionymi w standardowym, neutralnym formacie tekstowym bez dodatkowych informacji kontekstowych. Uczestnicy z ramienia interwencyjnego będą oceniać te same przypadki wraz z interwencją behawioralną 'nudge'. Interwencja ta składa się z dwóch zsynchronizowanych wskazówek poznawczych: (1) wskazówki kotwiczącej wyświetlającej na górze panelu interfejsu bazową dokładność diagnostyczną ChatGPT na standardowych zbiorach danych medycznych, wyraźnie kotwicząc oczekiwania w kierunku omylności modelu, oraz (2) wskazówki selektywnej uwagi wyświetlającej rekomendację LLM obok kolorowego sygnału pewności wygenerowanego poprzez ocenę zespołową: trzy niezależne, najnowocześniejsze LLM (Claude Sonnet 4.5, Gemini 2.5 Pro Thinking i GPT-5.1) dostarczają każdy ocenę pewności dla rekomendacji, a średnia pewności decyduje o kolorze sygnału, aby złagodzić błędną kalibrację pojedynczego modelu.
Kolorowe sygnały pewności są kategoryzowane na trzy odrębne poziomy w oparciu o średnią pewność zespołu w stosunku do bazowej dokładności diagnostycznej. Czerwone sygnały są uruchamiane, gdy średnia pewność spada poniżej ustalonej bazowej dokładności ChatGPT, wyraźnie oznaczając przypadki o wysokiej niepewności, które wymagają wzmożonej krytycznej analizy. Pomarańczowe sygnały wskazują, że chociaż średnia pewność przekracza średnią bazową, to pozostaje poniżej 100%, sygnalizując potrzebę utrzymania czujności klinicznej i unikania samozadowolenia. Wreszcie, zielone sygnały są zarezerwowane dla przypadków osiągnięcia 100% konsensusu zespołu; jednak nawet na tym poziomie pewności standardowe ostrzeżenia o bezpieczeństwie AI pozostają obecne, aby chronić przed nadmiernym poleganiem na wynikach systemu.
Uczestnikom zostaną przedstawione sześć przypadków klinicznych zaprojektowanych specjalnie do pomiaru błędu automatyzacji, pochodzących i zmodyfikowanych z prawdziwych przypadków reprezentujących zakres trudności diagnostycznej i powszechne specjalności medyczne. Każdy przypadek ma ustandaryzowany format, obejmujący główną dolegliwość, historię obecnej choroby, istotny wywiad medyczny/społeczny/rodzinny, wyniki badania fizykalnego oraz wstępne wyniki badań laboratoryjnych.
Głównym rezultatem jest Wynik Wydajności Rozumowania Diagnostycznego, złożony wynik procentowy oparty na ustrukturyzowanej rubryce oceniającej: jakość diagnoz różnicowych, potwierdzające wyniki, przeciwstawne wyniki, trafność ostatecznej diagnozy oraz adekwatność następnych kroków. Rezultaty drugorzędne obejmują trafność wybranej jako pierwszej diagnozy (nieprawidłowa, częściowo prawidłowa lub prawidłowa). Wszystkie odpowiedzi będą oceniane przez zaślepionych recenzentów przy użyciu rubryki oceny.
Typ studiów
Zapisy (Szacowany)
Faza
- Nie dotyczy
Kontakty i lokalizacje
Kontakt w sprawie studiów
- Nazwa: Ihsan Ayyub Qazi, PhD
- Numer telefonu: 8368 +923233333766
- E-mail: ihsan.qazi@lums.edu.pk
Kopia zapasowa kontaktu do badania
- Nazwa: Ayesha Ali, PhD
- Numer telefonu: 8235 +923419494940
- E-mail: ayeshaali@lums.edu.pk
Lokalizacje studiów
-
-
Punjab Province
-
Lahore, Punjab Province, Pakistan, 54792
- Rekrutacyjny
- Lahore University of Management Sciences
-
Główny śledczy:
- Ihsan Ayyub Qazi, PhD
-
Kontakt:
- Ayesha Ali, PhD
- Numer telefonu: 8235 +923419494940
- E-mail: ayeshaali@lums.edu.pk
-
Kontakt:
- Ihsan Ayyub Qazi, PhD
- Numer telefonu: +923233333766
- E-mail: ihsan.qazi@lums.edu.pk
-
-
Kryteria uczestnictwa
Kryteria kwalifikacji
Wiek uprawniający do nauki
- Dziecko
- Dorosły
- Starszy dorosły
Akceptuje zdrowych ochotników
Opis
Kryteria włączenia:
- Lekarze z pełnym lub tymczasowym wpisem w Pakistan Medical and Dental Council (PMDC).
- Ukończony egzamin Bachelor of Medicine, Bachelor of Surgery (MBBS). Równoważnym stopniem MBBS w USA i Kanadzie jest Doctor of Medicine (MD).
- Uczestnicy muszą ukończyć strukturyzowany program szkoleniowy z zakresu korzystania z ChatGPT (lub porównywalnego dużego modelu językowego), obejmujący co najmniej 10 godzin szkolenia. Program musi obejmować praktyczne ćwiczenia związane z kluczowymi aspektami LLM, w szczególności inżynierią promptów i oceną treści.
Kryteria wykluczenia:
- Wszyscy inni lekarze z pełnym lub tymczasowym wpisem w PMDC (np. specjaliści z tytułem Bachelor of Dental Surgery lub BDS).
Plan studiów
Jak projektuje się badanie?
Szczegóły projektu
- Główny cel: Diagnostyczny
- Przydział: Randomizowane
- Model interwencyjny: Przydział równoległy
- Maskowanie: Pojedynczy
Broń i interwencje
Grupa uczestników / Arm |
Interwencja / Leczenie |
|---|---|
|
Aktywny komparator: Rekomendacje ChatGPT wraz z Bodźcem Behawioralnym
Uczestnicy ocenią sześć opisów przypadków klinicznych.
Podczas badania będą mieli dostęp do zaleceń klinicznych od konkretnego, komercyjnie dostępnego LLM (ChatGPT) oprócz konwencjonalnych zasobów diagnostycznych.
Zalecenia LLM dla trzech opisów będą zawierać celowo błędne informacje diagnostyczne, a dla trzech opisów będą zawierać dokładne zalecenia.
Przypadki będą prezentowane w losowej kolejności.
Uczestnicy w tej grupie otrzymają behawioralny impuls osadzony w interfejsie zaleceń LLM, który prezentuje dwa zsynchronizowane sygnały poznawcze, gdy panel LLM jest rozwinięty: (1) sygnał zakotwiczenia wyświetlający podstawową dokładność diagnostyczną ChatGPT na standardowych zestawach danych medycznych na górze panelu, aby ustalić realistyczne oczekiwania przed interwencją sygnałową znajdującą się bezpośrednio poniżej, która pokazuje zalecenia LLM wraz z przypisanym do przypadku sygnałem pewności oznaczonym kolorem.
|
Uczestnicy grupy leczonej otrzymają interwencję behawioralną (nudge) osadzoną w interfejsie rekomendacji LLM, która prezentuje dwie zsynchronizowane wskazówki poznawcze, gdy panel LLM jest rozwinięty: (1) wskazówkę kotwiczącą wyświetlającą bazową dokładność diagnostyczną ChatGPT na standardowych zbiorach danych medycznych u góry panelu, aby ustalić realistyczne oczekiwania przed obejrzeniem konkretnej rekomendacji, oraz (2) wskazówkę selektywnej uwagi umieszczoną bezpośrednio poniżej, która pokazuje rekomendację LLM wraz z sygnałem pewności specyficznym dla przypadku i kodowanym kolorem.
Ten sygnał jest kategoryzowany jako czerwony, gdy średnie zaufanie zespołu spada poniżej ustalonej bazowej dokładności, oznaczając przypadki o wysokiej niepewności wymagające krytycznej oceny; pomarańczowy, gdy pewność osiąga lub przekracza bazę, ale pozostaje poniżej 100%, mający na celu zapobieżenie samozadowoleniu i utrzymanie aktywnej kontroli klinicznej; oraz zielony dla 100% konsensusu zespołu, choć standardowe ostrzeżenia ostrożnościowe nadal obowiązują, aby chronić przed błędami. |
|
Brak interwencji: Rekomendacje ChatGPT bez bodźca behawioralnego
Uczestnicy ocenią sześć przypadków klinicznych.
Podczas badania będą mieli dostęp do zaleceń klinicznych od konkretnego, komercyjnie dostępnego LLM (ChatGPT) oprócz konwencjonalnych zasobów diagnostycznych.
Rekomendacje LLM dla trzech przypadków będą zawierać celowo błędne informacje diagnostyczne.
Przypadki będą prezentowane w losowej kolejności.
Uczestnicy w tej grupie nie otrzymają żadnych zachęt behawioralnych.
|
Co mierzy badanie?
Podstawowe miary wyniku
Miara wyniku |
Opis środka |
Ramy czasowe |
|---|---|---|
|
Wskaźnik dokładności rozumowania diagnostycznego
Ramy czasowe: Oceniany w jednym punkcie czasowym dla każdego przypadku, podczas zaplanowanej sesji oceny rozumowania diagnostycznego, która odbywa się między 0 a 5 dni po rejestracji uczestnika.
|
Głównym wynikiem będzie procent poprawnych odpowiedzi dla każdego przypadku, w zakresie od 0 do 100%, gdzie wyższe wyniki wskazują na lepszą wydajność diagnostyczną.
Dla każdego przypadku uczestnicy zostaną poproszeni o podanie trzech wiodących diagnoz, wyników badań wspierających każdą diagnozę oraz wyników badań przeciwnych każdej diagnozie.
Za każdą prawdopodobną diagnozę uczestnicy otrzymają 1 punkt.
Wyniki badań wspierających diagnozę oraz wyniki badań przeciwnych diagnozie będą również oceniane na podstawie poprawności, z 1 punktem za każdą poprawną odpowiedź.
Następnie uczestnicy zostaną poproszeni o wskazanie swojej głównej diagnozy, którą uważają za najbardziej prawdopodobną, otrzymując 9 punktów za rozsądną odpowiedź i 18 punktów za najbardziej trafną odpowiedź.
Na koniec uczestnicy zostaną poproszeni o wymienienie do 3 kolejnych kroków w celu dalszej oceny pacjenta, przy czym 0,5 punktu zostanie przyznane za częściowo poprawną odpowiedź, a 1 punkt za całkowicie poprawną odpowiedź.
Główny wynik będzie porównywany na poziomie przypadku między randomizowanymi grupami.
|
Oceniany w jednym punkcie czasowym dla każdego przypadku, podczas zaplanowanej sesji oceny rozumowania diagnostycznego, która odbywa się między 0 a 5 dni po rejestracji uczestnika.
|
Miary wyników drugorzędnych
Miara wyniku |
Opis środka |
Ramy czasowe |
|---|---|---|
|
Najwyższy wynik dokładności diagnozy
Ramy czasowe: Oceniane w jednym punkcie czasowym dla każdego przypadku, podczas zaplanowanej sesji oceny rozumowania diagnostycznego, która odbywa się w ciągu 0-5 dni po rejestracji uczestnika.
|
Drugorzędowym wynikiem będzie pomiar umiejętności uczestników w identyfikacji najbardziej prawdopodobnej diagnozy dla każdej wizytówki klinicznej.
Po ocenie każdego przypadku uczestnicy wybiorą swoją jedną najbardziej prawdopodobną diagnozę, która zostanie oceniona według wcześniej określonej Trzystopniowej Skali Dokładności Diagnostycznej: 18 punktów za najbardziej trafną diagnozę, 9 punktów za klinicznie uzasadnioną alternatywę i 0 punktów za błędną diagnozę.
Dla każdego uczestnika obliczany jest Wynik Dokładności Diagnozy Pierwszego Wyboru jako (suma zdobytych punktów ÷ maksymalna możliwa liczba punktów) × 100, co daje zakres 0-100%, w którym wyższe wyniki wskazują na większą dokładność diagnostyczną.
Ten wynik procentowy będzie porównywany na poziomie przypadku między grupami randomizowanymi w celu określenia wpływu błędu automatyzacji na podejmowanie decyzji diagnostycznych.
|
Oceniane w jednym punkcie czasowym dla każdego przypadku, podczas zaplanowanej sesji oceny rozumowania diagnostycznego, która odbywa się w ciągu 0-5 dni po rejestracji uczestnika.
|
Współpracownicy i badacze
Śledczy
- Główny śledczy: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
- Główny śledczy: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
- Główny śledczy: Ali Zafar Sheikh, MBBS, Lahore General Hospital
- Główny śledczy: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
- Główny śledczy: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)
Daty zapisu na studia
Główne daty studiów
Rozpoczęcie studiów (Rzeczywisty)
Zakończenie podstawowe (Szacowany)
Ukończenie studiów (Szacowany)
Daty rejestracji na studia
Pierwszy przesłany
Pierwszy przesłany, który spełnia kryteria kontroli jakości
Pierwszy wysłany (Rzeczywisty)
Aktualizacje rekordów badań
Ostatnia wysłana aktualizacja (Rzeczywisty)
Ostatnia przesłana aktualizacja, która spełniała kryteria kontroli jakości
Ostatnia weryfikacja
Więcej informacji
Terminy związane z tym badaniem
Słowa kluczowe
Dodatkowe istotne warunki MeSH
Inne numery identyfikacyjne badania
- LUMS-IRB-0412/12192025/IAQ-FWA
Plan dla danych uczestnika indywidualnego (IPD)
Planujesz udostępniać dane poszczególnych uczestników (IPD)?
Informacje o lekach i urządzeniach, dokumenty badawcze
Bada produkt leczniczy regulowany przez amerykańską FDA
Bada produkt urządzenia regulowany przez amerykańską FDA
Te informacje zostały pobrane bezpośrednio ze strony internetowej clinicaltrials.gov bez żadnych zmian. Jeśli chcesz zmienić, usunąć lub zaktualizować dane swojego badania, skontaktuj się z register@clinicaltrials.gov. Gdy tylko zmiana zostanie wprowadzona na stronie clinicaltrials.gov, zostanie ona automatycznie zaktualizowana również na naszej stronie internetowej .
Badania kliniczne na Interwencja oparta na behawioralnych impulsach
-
Sarah MorrowLawson Health Research InstituteZakończony
-
Education University of Hong KongThe University of Hong Kong; Columbia University; The Hong Kong Polytechnic University i inni współpracownicyJeszcze nie rekrutacja
-
Sun Yat-sen UniversityJeszcze nie rekrutacjaMigotanie przedsionków (AF)Chiny
-
University of Texas at AustinAktywny, nie rekrutującyKażdy nietraumatyczny stan układu mięśniowo-szkieletowegoStany Zjednoczone
-
Oregon Health and Science UniversityNational Institute of Mental Health (NIMH); University of Connecticut; University... i inni współpracownicyJeszcze nie rekrutacja
-
Brigham and Women's HospitalThe Thompson Family Foundation IncAktywny, nie rekrutującyDepresja | Lęk | Psychoza | Behawioralne i psychiatryczne objawy demencjiStany Zjednoczone
-
University of MinnesotaRekrutacyjnyCukrzyca typu 2Stany Zjednoczone
-
Icahn School of Medicine at Mount SinaiNational Institute on Aging (NIA)ZakończonyChoroba Alzheimera | Łagodne upośledzenie funkcji poznawczychStany Zjednoczone
-
University of South CarolinaCenters for Disease Control and PreventionRekrutacyjnyArtretyzm | Zapalenie kości i stawów | Toczeń rumieniowaty układowy | Dna | Reumatoidalne zapalenie stawów (RZS) | Fibromialgia (FM)Stany Zjednoczone
-
Ege Miray TopcuZakończonyLęk | Opieka wspomagająca prowadzona przez pielęgniarkę | Interwencje pielęgniarskieTurcja (Türkiye)