- ICH GCP
- 미국 임상 시험 레지스트리
- 임상시험 NCT05272189
프로젝트 3 예시: Human-AI Collaboration Tester(HAICT) Exp. 7
연구 개요
상세 설명
이 텍스트는 Open Science Framework에 설명된 HICT 7 실험을 위한 사전 등록 텍스트입니다. https://osf.io/hngu4/
참고: 이 연구는 이 보조금의 프로젝트 3에서 수행된 연구를 대표합니다. 프로젝트 3으로 대표되는 실험 묶음에는 여러 실험이 있지만 CT.gov에 연구 묶음을 등록하는 것은 불가능합니다.
참고: 대명사 주석은 조언이므로 지금은 그대로 두겠습니다.
인간-AI 협업 테스터(HAICT) Exp. 7(OSF에서 약간 편집됨)
데이터 수집. 이 연구를 위해 이미 수집된 데이터가 있습니까? (예 아니오)
예
- 가설. 이 연구에서 묻는 주요 질문 또는 테스트 중인 가설은 무엇입니까?
배경: 기본 및 임상의 다양한 검색 실험에서 데이터는 신호(또는 대상)의 변동성이 잡음(산만함)의 변동성보다 큰 상황과 일치했습니다. 이것의 고전적인 표시는 기울기가 1 미만인 zROC 함수입니다. 일반적으로 약 0.6입니다. 1.0의 기울기는 등분산 2AFC 작업을 나타냅니다. 우리가 테스트해 온 HICT 작업의 경우 등분산을 예상하지만 확인할 가치가 있다고 생각하므로 체계적으로 기준을 바꿀 유병률을 다양화할 것입니다. 그것은 우리가 조사할 수 있는 ROC 곡선을 쓸어버릴 것입니다.
또한 낮은 유병률이 Second Reader를 악화시키는지 확인하기 위해 Second Reader faux-AI를 테스트할 것입니다.
- (H1): 우리는 유병률이 감소함에 따라 인간 기준이 더 보수적이 된다는 결과를 복제할 것으로 기대합니다.
- (H2): 결과 zROC의 기울기는 1.0이 될 것으로 예측합니다.
(H3): 댓글의 긍정적인 예측 가치가 낮기 때문에 보급률이 낮으면 Second Reader AI의 효율성이 떨어질 것이라고 가정합니다.
종속 변수. 측정 방법을 지정하는 주요 종속 변수를 설명합니다.
관심 있는 주요 종속 변수는 정확도(및 정확도의 신호 감지 도함수 d' 및 c), 반응 시간 및 각 블록 다음 설문 조사의 주관적 등급입니다.
- 정황. 참가자는 몇 명과 어떤 조건에 할당됩니까?
이 일련의 실험은 시뮬레이션된 AI의 입력 변경이 두 가지 대안 강제 선택 작업(유방조영술에서 추가 검사를 위해 여성을 소환하는 결정과 같은)에서 인간 관찰자가 내린 결정에 어떤 영향을 미칠 수 있는지 조사합니다. 우리는 인간과 시뮬레이션된 AI 간의 상호 작용을 효율적으로 테스트할 수 있는 HICT(Human-AI Collaboration Tester)라는 패러다임을 개발했습니다.
모든 조건에서 관찰자의 임무는 자극이 "나쁨"인지 "나쁨이 아닌지"에 대한 2AFC 결정을 내리는 것입니다. 의학적 진단을 대략적으로 모방하는 언어를 사용하기 위해 각 자극을 "사례"라고 합니다. 관찰자는 색상이 있는 모양의 배열에 대해 2AFC 결정을 내리도록 요청받습니다. 결정은 케이스의 주된 색상에 따라 이루어집니다. 각 색상의 요소 수는 긍정적(나쁜) 자극에 대한 정규 분포와 부정적인(나쁘지 않은) 자극에 대한 정규 분포 중 하나에서 가져옵니다.
이전 HAICT 실험(3 및 4)의 결과는 두 번째 리더 조건에서 인간의 성능이 낮은 유병률에서 크게 떨어짐을 보여주었습니다. 두 번째 판독기 조건의 성능은 나쁜 사례의 유병률이 50%일 때 기준선보다 좋았지만 유병률이 10%일 때 기준선보다 훨씬 나빴습니다. 이 실험에서는 두 번째 판독기 및 기본 조건에서 "나쁜" 사례의 유병률을 조작합니다. 4가지 유병률(10%, 33%, 67%, 90%)이 테스트됩니다. 옵저버는 8개의 블록(AI 규칙 2개 x 보급률 4개)을 완료하고 블록 순서는 무작위입니다.
테스트할 AI 규칙:
- 기준선 - AI 입력이 없습니다. 옵저버는 각각의 경우를 자체적으로 "나쁨" 또는 "나쁨"으로 분류합니다.
두 번째 독자 - 관찰자는 모든 경우에 대한 초기 결정을 내립니다. AI는 보수적 기준(c = 0.5)을 사용하여 자극을 자동으로 분류합니다. 보수적 기준의 논리는 두 번째 판독기가 거짓 긍정 응답을 줄이는 데 사용되고 있으므로 미미할 수 있는 긍정적인 인간 응답에 의문을 제기하기 위한 것입니다. 관찰자와 AI가 동의하지 않으면 AI가 인간 관찰자에게 알립니다. 그런 다음 관찰자는 응답을 변경하거나 첫 번째 의견을 따를 수 있는 기회가 주어집니다.
실험 1-5에서와 같이 AI d-prime은 2.2로 고정됩니다. 피드백은 유병률 효과를 높이는 것으로 알려져 있으므로 피드백은 연습 및 테스트 시험 모두에서 제공됩니다. 관찰자는 각 블록에서 20개의 연습 시도와 200개의 테스트 시도를 완료합니다. 각 블록이 완료되는 즉시 관찰자에게 성능 요약이 표시됩니다. 두 번째 독자 차단 후 AI의 유용성에 대한 세 가지 주관적인 질문에 답해야 합니다(자세한 내용은 "파일" 참조).
복수. 주요 질문/가설을 조사하기 위해 수행할 분석을 정확히 지정합니다.
먼저 각 블록의 적중, 정음, 미스 및 거짓 경보의 수를 요약합니다. 이를 통해 서로 다른 조건에서 각 관찰자에 대한 정확도, 양성 예측값, 민감도(d-prime) 및 기준을 계산할 수 있습니다. 4가지 유병률 수준에서 성능 측정이 주어지면 ROC 곡선(pHit x pFA)과 zROC 함수(zHit x zFA)를 추정할 수 있습니다. 우리는 zROC의 기울기가 1이라는 가설을 테스트할 것입니다(등분산 2AFC 작업의 결과).
더 많은 분석. 2차 분석이 있습니까?
AI에 대한 관찰자의 주관적인 의견이 경험적 d-prime 또는 긍정적인 예측 값과 같은 변수와 상관관계가 있는지 살펴보겠습니다.
표본의 크기. 얼마나 많은 관찰이 수집되거나 무엇이 샘플 크기를 결정합니까? 결정을 정당화할 필요는 없지만 숫자가 결정되는 방식에 대해 정확히 설명해야 합니다.
우리는 12명의 관찰자를 테스트할 것입니다. 이것은 이전 실험의 샘플 크기와 일치합니다.
- 다른. 사전 등록하고 싶은 다른 사항이 있습니까? (예: 데이터 제외, 탐색 목적으로 수집된 변수, 비정상적인 분석 계획?)
해당 없음
연구 유형
등록 (실제)
단계
- 해당 없음
연락처 및 위치
연구 장소
-
-
Massachusetts
-
Boston, Massachusetts, 미국, 02215
- Visual Attention Lab / Brigham and Women's Hospital
-
-
참여기준
자격 기준
공부할 수 있는 나이
건강한 자원 봉사자를 받아들입니다
설명
포함 기준:
- - 온라인 가입을 환영합니다.
제외 기준:
- 이시하라 색각 검사에 합격해야 함
- 20/25 시력(교정 포함)
공부 계획
연구는 어떻게 설계됩니까?
디자인 세부사항
- 주 목적: 기초 과학
- 할당: 해당 없음
- 중재 모델: 단일 그룹 할당
- 마스킹: 없음(오픈 라벨)
무기와 개입
참가자 그룹 / 팔 |
개입 / 치료 |
|---|---|
|
실험적: 실험
모든 참가자는 이 실험의 모든 조건에서 테스트됩니다.
|
이 실험에서 일부 조건에서 참가자는 시뮬레이션된 인공 지능 결정에 대한 정보가 있는 상태에서 결정을 내립니다.
대상이 제시되는 빈도는 10%에서 90%까지 다양합니다.
다른 이름들:
|
연구는 무엇을 측정합니까?
주요 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
D'
기간: 데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
D'(디프라임)은 과제 수행 수준의 신호 탐지 이론 측정치입니다.
이는 참 양성 반응 비율 = (참 양성 시도)/(참 양성 + 거짓 음성 시도) = p(TP)와 거짓 양성 반응 비율 = (거짓 양성 시도)/(거짓 양성 + 참 음성 시도) = p(FP)를 계산하여 산출됩니다.
이러한 값은 'z-점수'(예: Excel의 NORMSINV를 사용하여 표준 정규 분포의 역함수를 계산)로 변환됩니다.
D'는 Z(TP)-Z(FP)로 정의됩니다.
그 범위는 신호를 잡음으로부터 전혀 구별할 수 없는 경우의 0부터 ~4.0까지입니다.
상한은 정의되지 않았지만, 4는 관찰자가 신호와 잡음을 구별하는 데 본질적으로 완벽함을 의미합니다.
|
데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
|
기준
기간: 데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
기준( Criterion, 위의 D' 참조)은 z(TP)와 z(FP)로부터 계산됩니다.
기준( c ) = (z(TP)+z(FP))/-2.
값이 0이면 관찰자가 긍정(예: '표적 존재') 반응과 부정(부재) 반응을 동일한 확률로 할 가능성이 있음을 의미합니다.
양수 값은 관찰자가 "부재"라고 말할 가능성이 더 높음을 의미합니다(이른바 "보수적" 기준).
음수 값은 관찰자가 "존재"라고 말할 가능성이 더 높음을 의미합니다(이른바 "진보적" 기준).
여기서 진보적과 보수적은 정치적 함의를 가지지 않습니다.
기준 값은 거의 항상 -2에서 2 사이에 위치합니다.
|
데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
2차 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
반응 시간
기간: 데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
이것은 응답을 만드는 데 걸리는 시간을 측정한 것입니다.
|
데이터는 약 1시간 동안의 세션 내에서 수집됩니다.
|
공동 작업자 및 조사자
수사관
- 수석 연구원: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
연구 기록 날짜
연구 주요 날짜
연구 시작 (실제)
기본 완료 (실제)
연구 완료 (실제)
연구 등록 날짜
최초 제출
QC 기준을 충족하는 최초 제출
처음 게시됨 (실제)
연구 기록 업데이트
마지막 업데이트 게시됨 (실제)
QC 기준을 충족하는 마지막 업데이트 제출
마지막으로 확인됨
추가 정보
이 연구와 관련된 용어
개별 참가자 데이터(IPD) 계획
개별 참가자 데이터(IPD)를 공유할 계획입니까?
IPD 계획 설명
IPD 공유 기간
IPD 공유 액세스 기준
IPD 공유 지원 정보 유형
- 연구_프로토콜
- 수액
- ICF
약물 및 장치 정보, 연구 문서
미국 FDA 규제 의약품 연구
미국 FDA 규제 기기 제품 연구
이 정보는 변경 없이 clinicaltrials.gov 웹사이트에서 직접 가져온 것입니다. 귀하의 연구 세부 정보를 변경, 제거 또는 업데이트하도록 요청하는 경우 register@clinicaltrials.gov. 문의하십시오. 변경 사항이 clinicaltrials.gov에 구현되는 즉시 저희 웹사이트에도 자동으로 업데이트됩니다. .