- ICH GCP
- 미국 임상 시험 레지스트리
- 임상시험 NCT07328815
행동적 넛지를 사용한 의사-LLM 진단 추론에서 자동화 편향 완화
행동적 넛지를 사용하여 의사-LLM 진단 추론에서 자동화 편향 완화
이 무작위 대조 시험의 목표는 ChatGPT-5.1과 같은 대규모 언어 모델(LLM)을 임상적 의사 결정에 사용하는 의사들 사이에서 자동화 편향, 즉 자동화된 결과물을 비판 없이 수용하는 경향을 행동적 넛지가 감소시킬 수 있는지 평가하는 것입니다.
본 연구가 답하고자 하는 주요 질문은 다음과 같습니다: 이중 메커니즘 행동적 넛지 개입(기본 정확도 앵커링 및 사례별 색상 코딩된 신뢰도 신호)이 의사들의 잘못된 LLM 권고사항에 대한 비판 없는 수용을 줄이는가?
연구자들은 행동적 넛지와 함께 LLM 권고사항을 받는 의사들과 넛지 없이 LLM 권고사항만 받는 의사들을 비교하여 넛지가 자동화 편향을 감소시키는지 평가할 것입니다.
참가자들은 다음과 같은 과정을 거칠 것입니다:
- LLM 생성 권고사항이 첨부된 6개의 임상 비네트를 평가합니다(절반은 의도적이고 임상적으로 중대한 오류를 포함).
- 대조군: 넛지 없이 표준 형식으로 LLM 권고사항을 볼 수 있습니다.
- 처치군: 초기 앵커로서 표준 의학 데이터셋에 대한 ChatGPT의 진단 정확도를 확인한 후, 각 권고사항과 함께 색상 코딩된 신뢰도 신호를 받습니다(예: 낮은 신뢰도는 빨간색).
- 눈가림된 평가자가 전문가 개발 평가 기준표를 사용하여 오류 정보에 대한 비판 없는 수용을 탐지하도록 응답을 평가받을 것입니다.
연구 개요
상세 설명
자동화 편향은 현대 임상 실무에서 중요한 과제를 나타내며, 특히 인공 지능(AI) 도구가 의료 업무 흐름에 점점 더 깊숙이 통합됨에 따라 더욱 그러합니다. 이 인지적 현상은 임상의들이 자동화된 의사 결정 시스템의 제안이 틀렸을 때조차도 그 제안을 선호하는 경향을 설명합니다. ChatGPT-5.1과 같은 대형 언어 모델(LLM)이 의료 환경에서 영향력을 얻으면서, 오류를 줄이고 효율성을 향상시킬 수 있는 잠재력은 중요한 우려 사항과 함께 저울질되어야 합니다: 이러한 모델들은 엄격한 의학적 검증이 부족하며, 잘못되거나 오해의 소지가 있는 권고를 통해 기존의 인지적 편향을 증폭시킬 수 있습니다.
의료 맥락에서 자동화 편향의 출현은 환경적 및 심리적 요인의 복잡한 상호작용을 반영합니다. 대량의 임상 환경에서의 시간 제약은 충분한 검토 없이 AI 생성 권고를 수용하도록 압력을 가합니다. 철저함보다 효율성을 우선시하는 재정적 인센티브는 건전한 임상 판단에 필요한 비판적 평가를 더욱 억제할 수 있습니다. 연장 근무 중의 인지적 피로는 의사들의 지속적인 분석적 사고 능력을 감소시킵니다. 이러한 압력들은 책임 분산, 기술적 해결책에 대한 과신, 인지적 부하 감소를 포함한 심리적 메커니즘과 상호작용하여, AI 생성 권고에 대한 비판 없는 수용이 더욱 가능해지는 조건을 집단적으로 만들어냅니다.
이 무작위 대조 시험은 LLM 생성 진단 권고를 활용하는 의사들 사이에서 자동화 편향을 완화하도록 설계된 행동 넛지 중재의 효과를 평가합니다. 주요 목표는 의도적으로 결함이 있는 LLM 권고를 포함하는 임상 비네트를 평가할 때 이 중재가 진단 추론 수행 점수를 향상시키는지 여부를 결정하는 것입니다. 부차적 목표에는 의사 경험 수준, 성별, 이전 LLM 경험이 중재의 효과를 조절하는지 평가하는 것, 다양한 신뢰 신호에 걸친 비네트에 대한 차등적 효과를 결정하는 것이 포함됩니다.
이 연구는 두 개의 평행한 그룹을 가진 단일 맹검, 무작위 대조 시험을 사용합니다. 참가자들은 1:1로 중재 그룹 또는 대조 그룹에 무작위로 배정될 것입니다. 프롬프팅 기술 차이에서 오는 변동성을 제거하기 위해, 참가자들은 실시간 LLM 인터페이스와 직접 상호작용하지 않을 것입니다. 대신, 모든 참가자는 사전 생성된 LLM 권고가 있는 임상 비네트를 표시하는 맞춤형 웹 플랫폼을 사용하여, 각 비네트에 대해 동일한 LLM 생성 콘텐츠를 보장할 것입니다.
모든 참가자는 약 75분 동안 진행되는 단일, 감독된 세션 동안 6개의 임상 비네트를 평가할 것입니다. 세 개의 비네트는 LLM 권고에 의도적으로 도입된 임상 추론 결함을 포함할 것이며, 세 개는 정확한 권고를 포함할 것입니다. 패턴 감지를 방지하기 위해 비네트는 무작위 순서로 제시될 것입니다.
대조 그룹 참가자들은 추가적인 맥락 정보 없이 표준적이고 중립적인 텍스트 형식으로 제시된 ChatGPT에 의해 생성된 LLM 진단 권고가 있는 임상 비네트를 평가할 것입니다. 중재 그룹 참가자들은 행동 넛지와 함께 동일한 비네트를 평가할 것입니다. 이 중재는 두 가지 동기화된 인지적 신호로 구성됩니다: (1) 인터페이스 패널 상단에 ChatGPT의 기준 진단 정확도를 표시하는 앵커링 신호로, 기대치를 모델의 오류 가능성에 명시적으로 고정시키고, (2) 앙상블 평가를 통해 생성된 색상 코딩된 신뢰 신호와 함께 LLM 권고를 표시하는 선택적 주의 신호: 세 개의 독립적인 최첨단 LLM(Claude Sonnet 4.5, Gemini 2.5 Pro Thinking, GPT-5.1)이 각각 권고에 대한 신뢰도 등급을 제공하며, 평균 신뢰도가 단일 모델의 잘못된 보정을 완화하기 위해 신호 색상을 결정합니다.
색상 코딩된 신뢰 신호는 기준 진단 정확도에 대한 앙상블의 평균 신뢰도를 기준으로 세 가지 뚜렷한 수준으로 분류됩니다. 빨간색 신호는 평균 신뢰도가 ChatGPT의 확립된 기준 정확도 아래로 떨어질 때 트리거되어, 높은 불확실성 사례를 명시적으로 표시하며 이는 강화된 비판적 검토를 요구합니다. 주황색 신호는 평균 신뢰도가 기준 평균을 초과하지만 100% 미만으로 유지됨을 나타내며, 지속적인 임상 경계와 안일함 회피의 필요성을 신호합니다. 마지막으로, 녹색 신호는 100% 앙상블 합의의 경우에만 사용됩니다; 그러나 이 수준의 신뢰도에서도 시스템 출력에 대한 지나친 의존을 방지하기 위해 표준 AI 안전 경고가 여전히 존재합니다.
참가자들은 자동화 편향을 측정하도록 특별히 설계된 6개의 임상 비네트를 제시받을 것이며, 이는 다양한 진단 난이도와 일반적인 의학 전문 분야를 대표하는 실제 사례에서 추출 및 수정되었습니다. 각 비네트는 주 호소, 현재 병력, 관련 과거 의료/사회/가족력, 신체 검사 소견, 초기 검사실 결과를 포함하는 표준화된 형식을 따릅니다.
주요 결과는 진단 추론 수행 점수로, 차등 진단의 질, 지지 소견, 반대 소견, 최종 진단 정확도, 다음 단계의 적절성을 평가하는 구조화된 루브릭을 기반으로 한 복합 백분율 점수입니다. 부차적 결과에는 최상위 선택 진단 정확도(부정확, 부분적으로 정확, 또는 정확)가 포함됩니다. 모든 응답은 평가 루브릭을 사용하여 맹검된 검토자들에 의해 평가될 것입니다.
연구 유형
등록 (추정된)
단계
- 해당 없음
연락처 및 위치
연구 연락처
- 이름: Ihsan Ayyub Qazi, PhD
- 전화번호: 8368 +923233333766
- 이메일: ihsan.qazi@lums.edu.pk
연구 연락처 백업
- 이름: Ayesha Ali, PhD
- 전화번호: 8235 +923419494940
- 이메일: ayeshaali@lums.edu.pk
연구 장소
-
-
Punjab Province
-
Lahore, Punjab Province, 파키스탄, 54792
- 모병
- Lahore University of Management Sciences
-
수석 연구원:
- Ihsan Ayyub Qazi, PhD
-
연락하다:
- Ayesha Ali, PhD
- 전화번호: 8235 +923419494940
- 이메일: ayeshaali@lums.edu.pk
-
연락하다:
- Ihsan Ayyub Qazi, PhD
- 전화번호: +923233333766
- 이메일: ihsan.qazi@lums.edu.pk
-
-
참여기준
자격 기준
공부할 수 있는 나이
- 어린이
- 성인
- 고령자
건강한 자원 봉사자를 받아들입니다
설명
포함 기준:
- 파키스탄 의학 및 치과 협회(PMDC)에 정식 또는 가등록된 의료 종사자.
- 의학사, 외과사 학위(MBBS) 시험을 완료해야 합니다. 미국과 캐나다에서 MBBS에 해당하는 학위는 의학박사(MD)입니다.
- 참가자는 ChatGPT(또는 이와 유사한 대규모 언어 모델) 사용에 관한 구조화된 교육 프로그램을 최소 10시간 이상 이수해야 합니다. 프로그램에는 프롬프트 엔지니어링 및 콘텐츠 평가와 같은 LLM의 핵심 측면과 관련된 실습이 포함되어야 합니다.
제외 기준:
- PMDC에 등록된 다른 모든 의료 종사자(정식 또는 가등록, 예: 치의학사(BDS) 소지 전문가).
공부 계획
연구는 어떻게 설계됩니까?
디자인 세부사항
- 주 목적: 특수 증상
- 할당: 무작위
- 중재 모델: 병렬 할당
- 마스킹: 하나의
무기와 개입
참가자 그룹 / 팔 |
개입 / 치료 |
|---|---|
|
활성 비교기: 행동 유도를 위한 ChatGPT 권장 사항
참가자들은 6개의 임상 시나리오를 평가하게 됩니다.
시험 중에는 기존의 진단 자료 외에 특정 상용 LLM(ChatGPT)의 임상 권고사항에 접근할 수 있습니다.
세 가지 시나리오에 대한 LLM 권고사항에는 의도적으로 결함이 있는 진단 정보가 포함되고, 세 가지 시나리오에는 정확한 권고사항이 포함됩니다.
사례들은 무작위 순서로 제시될 것입니다.
이 그룹의 참가자들은 LLM 권고사항 인터페이스에 내장된 행동적 넛지를 받게 되며, LLM 패널이 확장될 때 두 가지 동기화된 인지적 신호를 제공합니다: (1) 패널 상단에 ChatGPT의 표준 의학 데이터셋에 대한 기준 진단 정확도를 표시하는 앵커링 신호로 현실적인 기대치를 설정하고, 그 바로 아래 위치한 신호 개입 전에 사례별 색상 코드 신뢰도 신호와 함께 LLM 권고사항을 보여줍니다.
|
치료 그룹의 참가자는 LLM 권장사항 인터페이스에 내장된 행동 유도 개입을 받게 되며, 이는 LLM 패널이 확장될 때 두 가지 동기화된 인지 신호를 제공합니다: (1) 패널 상단에 표준 의료 데이터셋에서의 ChatGPT 기준 진단 정확도를 표시하는 앵커링 신호로, 특정 권장사항을 보기 전 현실적인 기대치를 설정하고, (2) 바로 아래에 위치한 선택적 주의 신호로, 이는 LLM 권장사항과 함께 사례별 및 색상 코딩된 신뢰도 신호를 보여줍니다.
이 신호는 평균 앙상블 신뢰도가 확립된 기준 정확도 미만일 때 빨간색으로 분류되어 비판적 평가가 필요한 높은 불확실성 사례를 표시하고, 신뢰도가 기준을 충족하거나 초과하지만 100% 미만일 때 주황색으로 분류되어 안일함을 방지하고 활발한 임상적 검토를 유지하며, 100% 앙상블 합의일 때 녹색으로 분류되지만, 여전히 주의 경고가 적용되어 방어합니다.
|
|
간섭 없음: 행동적 넛지 없이 ChatGPT 추천
참가자들은 6개의 임상 비네트를 평가하게 됩니다.
시험 중에 참가자들은 기존의 진단 자료 외에 특정 상용 LLM(ChatGPT)의 임상 권고사항에 접근할 수 있습니다.
세 개의 비네트에 대한 LLM 권고사항은 의도적으로 잘못된 진단 정보를 포함할 것입니다.
사례들은 무작위 순서로 제시될 것입니다.
이 그룹의 참가자들은 행동적 넛지를 받지 않을 것입니다.
|
연구는 무엇을 측정합니까?
주요 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
진단 추론 정확도 점수
기간: 각 사례에 대해 단일 시점에서 평가되며, 이는 참가자 등록 후 0-5일 사이에 예정된 진단 추론 평가 세션 동안 진행됩니다.
|
주요 결과는 각 케이스에 대한 정답률(백분율)로, 0%에서 100%까지 범위를 가지며, 점수가 높을수록 더 나은 진단 성능을 나타냅니다.
각 케이스마다 참가자들은 세 가지 주요 진단, 각 진단을 지지하는 소견, 그리고 각 진단을 반대하는 소견을 제시해야 합니다.
각 타당한 진단에 대해 참가자는 1점을 받습니다.
진단을 지지하는 소견과 진단을 반대하는 소견도 정확도에 따라 채점되며, 각 정답에 대해 1점이 부여됩니다.
그런 다음 참가자들은 가장 가능성이 높다고 생각하는 최상위 진단을 명시해야 하며, 합리적인 응답에는 9점, 가장 정확한 응답에는 18점이 부여됩니다.
마지막으로 참가자들은 환자를 추가 평가하기 위한 최대 3개의 다음 단계를 명시해야 하며, 부분적으로 정확한 응답에는 0.5점, 완전히 정확한 응답에는 1점이 부여됩니다.
주요 결과는 무작위 배정된 그룹 간에 케이스 수준에서 비교될 것입니다.
|
각 사례에 대해 단일 시점에서 평가되며, 이는 참가자 등록 후 0-5일 사이에 예정된 진단 추론 평가 세션 동안 진행됩니다.
|
2차 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
최고 선택 진단 정확도 점수
기간: 각 사례별로 단일 시점에서 평가되며, 이는 참가자 등록 후 0-5일 사이에 예정된 진단 추론 평가 세션 중에 진행됩니다.
|
본 연구의 2차 평가 항목은 참가자들이 각 임상 사례에 대해 가장 가능성이 높은 진단을 식별하는 성과를 측정합니다.
각 사례를 평가한 후, 참가자는 단 하나의 가장 가능성 높은 진단을 선택하게 되며, 이는 사전에 정의된 3단계 진단 정확도 척도에 따라 점수가 부여됩니다: 가장 정확한 진단에는 18점, 임상적으로 합리적인 대안 진단에는 9점, 잘못된 진단에는 0점이 부여됩니다.
각 참가자에 대해 최선 선택 진단 정확도 점수는 (획득한 총점수 ÷ 가능한 최대 점수) × 100으로 계산되어 0-100% 범위의 값을 가지며, 점수가 높을수록 진단 정확도가 높음을 나타냅니다.
이 백분율 점수는 무작위 배정된 그룹 간에 사례 수준에서 비교되어 자동화 편향이 진단 의사 결정에 미치는 영향을 정량화합니다.
|
각 사례별로 단일 시점에서 평가되며, 이는 참가자 등록 후 0-5일 사이에 예정된 진단 추론 평가 세션 중에 진행됩니다.
|
공동 작업자 및 조사자
수사관
- 수석 연구원: Muhammad Asadullah Khawaja, MBBS, King Edward Medical University
- 수석 연구원: Ihsan Ayyub Qazi, PhD, Lahore University of Management Sciences (LUMS)
- 수석 연구원: Ali Zafar Sheikh, MBBS, Lahore General Hospital
- 수석 연구원: Muhammad Junaid Akhtar, MBBS, Children's Hospital, Lahore
- 수석 연구원: Muhammad Hamad Alizai, PhD, Lahore University of Management Sciences (LUMS)
연구 기록 날짜
연구 주요 날짜
연구 시작 (실제)
기본 완료 (추정된)
연구 완료 (추정된)
연구 등록 날짜
최초 제출
QC 기준을 충족하는 최초 제출
처음 게시됨 (실제)
연구 기록 업데이트
마지막 업데이트 게시됨 (실제)
QC 기준을 충족하는 마지막 업데이트 제출
마지막으로 확인됨
추가 정보
이 정보는 변경 없이 clinicaltrials.gov 웹사이트에서 직접 가져온 것입니다. 귀하의 연구 세부 정보를 변경, 제거 또는 업데이트하도록 요청하는 경우 register@clinicaltrials.gov. 문의하십시오. 변경 사항이 clinicaltrials.gov에 구현되는 즉시 저희 웹사이트에도 자동으로 업데이트됩니다. .
행동 유도 개입에 대한 임상 시험
-
Denver Health and Hospital Authority완전한
-
Shanghai Yueyang Integrated Medicine Hospital아직 모집하지 않음
-
Second Affiliated Hospital, School of Medicine,...모집하지 않고 적극적으로
-
Hospices Civils de Lyon아직 모집하지 않음
-
Education University of Hong KongUniversity of Texas at Austin; City University of Hong Kong모병
-
Guangzhou Women and Children's Medical Center아직 모집하지 않음NEC - 괴사성 장염
-
South China Normal University모집하지 않고 적극적으로
-
ICIM International S.r.l.아직 모집하지 않음