- ICH GCP
- 미국 임상 시험 레지스트리
- 임상시험 NCT07500428
유방 초음파 AI 판독 벤치마크 구축 및 멀티모달 AI 모델 성능 평가 (BUST-AI Bench)
ACR BI-RADS v2025 기준에 기반한 다중모달 인공지능 모델의 체계적 성능 평가 및 지능형 유방 초음파 영상 판독을 위한 표준화된 벤치마크 평가 시스템 구축
이 단일 기관, 후향적, 관찰 연구는 지능형 유방 초음파 이미지 해석을 위한 표준화된 벤치마크 평가 시스템을 구축하고, 현재 주류 다중 모드 인공지능(AI) 모델들의 진단 성능을 체계적으로 평가하는 것을 목표로 합니다.
확인된 병리학적 진단이 있는 비식별화된 B-모드 유방 초음파 이미지는 기관 아카이브(2018-2025)에서 후향적으로 수집되며, 공개된 오픈 액세스 데이터셋의 이미지로 보완될 예정입니다. 다양한 경험 수준을 가진 전문 영상의학과 의사들은 미국 방사선학회(ACR) 유방 영상 보고 및 데이터 시스템(BI-RADS) v2025 기준에 따라 모든 이미지를 독립적으로 주석 처리할 것입니다. 여기에는 선조직 구성, 병변 특성화(종괴 vs. 비종괴 병변), 형태학적 기술자, 최종 BI-RADS 분류가 포함됩니다.
기준 심층 학습 모델(CNN 기반 ResNet-50 및 Transformer 기반 USFM)은 성능 기준을 설정하고 교차 아키텍처 합의를 통해 진단 난이도별로 사례를 계층화하기 위해 훈련될 예정입니다. 그런 다음 일반 목적 및 의료 분야 모델을 포함한 여러 다중 모드 대규모 언어 모델(MLLM)들은 재현성을 위해 온도 0에서 BI-RADS 가이드 사고 연쇄 프롬프트를 사용한 표준화된 API 호출을 통해 평가될 것입니다.
주요 종료점에는 BI-RADS 분류 정확도 및 양성-악성 감별을 위한 진단 AUC가 포함됩니다. 모델 견고성과 안전성은 분포 외 거부 테스트, 온도 안정성 실험 및 사고 모드 절제 연구를 통해 평가될 것입니다. 이 연구는 FLAIR 및 TRIPOD-LLM 보고 지침을 준수합니다.
연구 개요
상세 설명
배경: 유방암은 전 세계 여성에서 가장 흔한 악성 종양입니다. 초음파는 특히 유방조직이 치밀하여 유방촬영술의 민감도가 제한적인 아시아 인구에서 일차 선별 검사 방법입니다. 그러나 초음파 판독은 검사자에 크게 의존하며, 특히 BI-RADS 4A-4B 병변에서 관찰자 간 변동성이 상당합니다. 멀티모달 대규모 언어 모델(MLLM)은 제로샷 진단 능력, 해석 가능한 사고 연쇄 추론 및 구조화된 보고서 생성 기능으로 인해 의료 영상 분석을 위한 유망한 도구로 부상했습니다. 그럼에도 불구하고, 현재까지 유방 초음파 판독에서 AI 성능을 평가하기 위한 표준화된 벤치마크는 존재하지 않습니다.
연구 설계: 약 1,380개의 유방 초음파 영상(평가 세트 1,200개 + 분포 외 안전성 테스트 세트 150개 + 프롬프트 개발 세트 30개)이 선별되며, 정상 유방, 양성 병변(BI-RADS 2-4B), 악성 병변(BI-RADS 3-5)의 세 가지 진단 범주를 포함합니다. 두 명의 초임 방사선과 의사(경력 <5년)와 두 명의 고경력 방사선과 의사(경력 >15년)가 ACR BI-RADS v2025에 따라 영상을 독립적으로 주석 처리하며, 불일치 사례는 다섯 번째 전문가의 중재를 거칩니다.
진단 난이도는 교차 아키텍처 딥러닝 합의를 사용하여 세 단계로 계층화됩니다: 1단계(명확함, 두 모델 모두 정답), 2단계(애매함, 하나 정답/하나 오답), 3단계(어려움, 두 모델 모두 오답, 고경력 전문가 검증 포함). MLLM은 분류 정확도, 민감도, 특이도, F1 점수, AUC, 전문가 합의와의 Cohen's kappa 일치도, 예상 보정 오차(ECE), 형태학적 특징 기술 정확도, 사고 연쇄 추론 품질 등 다양한 차원에서 평가됩니다.
안전성 평가: (1) 150개의 비진단 영상(열화된 영상, 비유방 초음파, 다른 영상 양식)을 사용한 분포 외 거부 테스트; (2) 매개변수 설정 전반의 온도 안정성 사전 실험; (3) 표준 대 사고 연쇄 추론 모드 비교를 통한 사고 모드 절제. 모든 실험은 고정된 모델 스냅샷, 시스템 지문 모니터링 및 재현성을 위한 완전한 로깅을 사용합니다.
연구 유형
등록 (추정된)
연락처 및 위치
연구 연락처
- 이름: Qingli Zhu, MD
- 전화번호: +86 13621376699
- 이메일: zqlpumch@126.com
연구 연락처 백업
- 이름: Yinglan Wu, MD
- 전화번호: +86 15626121076
- 이메일: wuylan7@gmail.com
연구 장소
-
-
-
Beijing, 중국, 100730
- 모병
- Peking Union Medical College Hospital
-
연락하다:
- Qingli Zhu, MD
- 전화번호: +86 13621376699
- 이메일: zqlpumch@126.com
-
-
참여기준
자격 기준
공부할 수 있는 나이
- 성인
- 고령자
건강한 자원 봉사자를 받아들입니다
샘플링 방법
연구 인구
설명
포함 기준:
- 기관 PACS 데이터베이스 또는 공개된 공개 접근 가능한 유방 초음파 데이터셋에서 기관 윤리 승인 문서가 있는 B-모드 유방 초음파 그레이스케일 이미지
- 관심 영역이 명확하게 시각화되어 임상 진단에 적합한 이미지 품질
- 병리학적 진단 확인 (양성 및 악성 병변군의 경우), 또는 15년 이상의 유방 초음파 경력을 가진 수석 영상의사가 확인한 정상 유방 상태 (정상군의 경우)
- 모든 개인 식별 정보 제거를 통한 완전한 비식별화
제외 기준:
- 의미 있는 BI-RADS 평가를 방해할 정도로 심각하게 저하된 이미지 품질
- 동일 환자의 중복 이미지 (병변당 가장 대표적인 이미지만 보관)
- 비식별화 처리 후에도 잔류 개인 식별 정보가 있는 이미지
- 모호하거나 논란이 있거나 사용할 수 없는 병리 결과가 있는 사례
- 탄성 초음파, 조영 증강 초음파 및 도플러 영상을 포함한 비 B-모드 초음파 이미지
공부 계획
연구는 어떻게 설계됩니까?
디자인 세부사항
코호트 및 개입
그룹/코호트 |
개입 / 치료 |
|---|---|
|
정상 유방
다양한 조직 구성 유형에 걸쳐 정상적인 선 조직을 보여주는 유방 초음파 영상으로, 국소 병변은 확인되지 않았습니다.
수석 방사선 전문의 검토로 확인되었습니다.
|
API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가.
환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.
|
|
양성 병변
병리학적으로 확인된 양성 병변(BI-RADS 2-4B)을 포함하는 유방 초음파 영상으로, 섬유선종, 낭종, 지방종, 경화성 선증, 관내 유두종 및 선택된 비종괴 병변(NML)을 포함합니다.
|
API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가.
환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.
|
|
악성 병변
병리학적으로 확인된 악성 병변(BI-RADS 3-5)을 포함하는 유방 초음파 이미지로, 침윤성 관암, 침윤성 소엽암, 점액암 및 선택된 비종괴 병변(NML)을 포함합니다.
|
API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가.
환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.
|
연구는 무엇을 측정합니까?
주요 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
병리학적 진단을 위한 진단 정확도
기간: 연구 완료 시, 약 12개월
|
조직병리학적 진단을 표준으로 한 양성-악성 분류에 대한 AI 모델의 민감도, 특이도, 양성 예측도(PPV), 음성 예측도(NPV) 및 F1 점수
|
연구 완료 시, 약 12개월
|
|
BI-RADS 분류 정확도
기간: 연구 완료 시, 약 12개월
|
유방 초음파 영상에 BI-RADS 범주(2, 3, 4A, 4B, 4C, 5)를 할당하는 AI 모델의 전체 정확도(기준 표준으로 전문가 합의 주석과 비교).
|
연구 완료 시, 약 12개월
|
2차 결과 측정
결과 측정 |
측정값 설명 |
기간 |
|---|---|---|
|
전문가 합의와의 일치도 (Cohen's Kappa)
기간: 연구 완료 시, 약 12개월
|
각 AI 모델의 BI-RADS 분류와 전문가 합의 주석 간의 일치도를 측정하는 Cohen의 카파 계수로, 95% 신뢰 구간과 함께 보고됩니다.
|
연구 완료 시, 약 12개월
|
|
분포 외 거절률
기간: 연구 완료 시, 약 12개월
|
비진단적 이미지(화질 저하, 비유방 초음파, 기타 영상 기법)의 비율을 AI 모델이 올바르게 식별하고 거부한 비율로, 도메인 안전성을 평가합니다.
|
연구 완료 시, 약 12개월
|
|
민감도, 특이도, 양성예측도, 음성예측도, F1 점수
기간: 연구 완료 시, 약 12개월
|
양성-악성 분류를 위한 표준 진단 성능 지표, 각 AI 모델별로 개별적으로 보고됨.
|
연구 완료 시, 약 12개월
|
공동 작업자 및 조사자
수사관
- 수석 연구원: Qingli Zhu, MD, Peking Union Medical College Hospital
간행물 및 유용한 링크
일반 간행물
- Sung H, Ferlay J, Siegel RL, Laversanne M, Soerjomataram I, Jemal A, Bray F. Global Cancer Statistics 2020: GLOBOCAN Estimates of Incidence and Mortality Worldwide for 36 Cancers in 185 Countries. CA Cancer J Clin. 2021 May;71(3):209-249. doi: 10.3322/caac.21660. Epub 2021 Feb 4.
- Bi WL, Hosny A, Schabath MB, Giger ML, Birkbak NJ, Mehrtash A, Allison T, Arnaout O, Abbosh C, Dunn IF, Mak RH, Tamimi RM, Tempany CM, Swanton C, Hoffmann U, Schwartz LH, Gillies RJ, Huang RY, Aerts HJWL. Artificial intelligence in cancer imaging: Clinical challenges and applications. CA Cancer J Clin. 2019 Mar;69(2):127-157. doi: 10.3322/caac.21552. Epub 2019 Feb 5.
- Collins GS, Moons KGM, Dhiman P, Riley RD, Beam AL, Van Calster B, Ghassemi M, Liu X, Reitsma JB, van Smeden M, Boulesteix AL, Camaradou JC, Celi LA, Denaxas S, Denniston AK, Glocker B, Golub RM, Harvey H, Heinze G, Hoffman MM, Kengne AP, Lam E, Lee N, Loder EW, Maier-Hein L, Mateen BA, McCradden MD, Oakden-Rayner L, Ordish J, Parnell R, Rose S, Singh K, Wynants L, Logullo P. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024 Apr 16;385:e078378. doi: 10.1136/bmj-2023-078378.
- Benary M, Wang XD, Schmidt M, Soll D, Hilfenhaus G, Nassir M, Sigler C, Knodler M, Keller U, Beule D, Keilholz U, Leser U, Rieke DT. Leveraging Large Language Models for Decision Support in Personalized Oncology. JAMA Netw Open. 2023 Nov 1;6(11):e2343689. doi: 10.1001/jamanetworkopen.2023.43689.
- Bhayana R, Krishna S, Bleakney RR. Performance of ChatGPT on a Radiology Board-style Examination: Insights into Current Strengths and Limitations. Radiology. 2023 Jun;307(5):e230582. doi: 10.1148/radiol.230582. Epub 2023 May 16.
- Clusmann J, Kolbinger FR, Muti HS, Carrero ZI, Eckardt JN, Laleh NG, Loffler CML, Schwarzkopf SC, Unger M, Veldhuizen GP, Wagner SJ, Kather JN. The future landscape of large language models in medicine. Commun Med (Lond). 2023 Oct 10;3(1):141. doi: 10.1038/s43856-023-00370-1.
- Seyyed-Kalantari L, Zhang H, McDermott MBA, Chen IY, Ghassemi M. Underdiagnosis bias of artificial intelligence algorithms applied to chest radiographs in under-served patient populations. Nat Med. 2021 Dec;27(12):2176-2182. doi: 10.1038/s41591-021-01595-0. Epub 2021 Dec 10.
- Moor M, Banerjee O, Abad ZSH, Krumholz HM, Leskovec J, Topol EJ, Rajpurkar P. Foundation models for generalist medical artificial intelligence. Nature. 2023 Apr;616(7956):259-265. doi: 10.1038/s41586-023-05881-4. Epub 2023 Apr 12.
- Miaojiao S, Xia L, Xian Tao Z, Zhi Liang H, Sheng C, Songsong W. Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study. JMIR Med Inform. 2025 Jun 11;13:e70924. doi: 10.2196/70924.
- Jiao J, Zhou J, Li X, Xia M, Huang Y, Huang L, Wang N, Zhang X, Zhou S, Wang Y, Guo Y. USFM: A universal ultrasound foundation model generalized to tasks and organs towards label efficient image analysis. Med Image Anal. 2024 Aug;96:103202. doi: 10.1016/j.media.2024.103202. Epub 2024 May 15.
- Xiang H, Wang X, Xu M, Zhang Y, Zeng S, Li C, Liu L, Deng T, Tang G, Yan C, Ou J, Lin Q, He J, Sun P, Li A, Chen H, Heng PA, Lin X. Deep Learning-assisted Diagnosis of Breast Lesions on US Images: A Multivendor, Multicenter Study. Radiol Artif Intell. 2023 Jul 12;5(5):e220185. doi: 10.1148/ryai.220185. eCollection 2023 Sep.
- Kottlors J, Iuga AI, Bluethgen C, Bressem K, Kather JN, Moy L, Wald C, Wang W, Liu T, Ranschaert E, Dratsch T, Kleesiek J, Gertz RJ, Rajpurkar P, Bedayat A, Fink MA, Zeeck A, Chaudhari A, Alkasab T, Wu H, Nensa F, Wang B, Grosse Hokamp N, Laukamp KR, Persigehl T, Maintz D, Truhn D, Lennartz S. Guidelines for Reporting Studies on Large Language Models in Radiology: An International Delphi Expert Survey. Radiology. 2026 Feb;318(2):e250913. doi: 10.1148/radiol.250913.
연구 기록 날짜
연구 주요 날짜
연구 시작 (실제)
기본 완료 (추정된)
연구 완료 (추정된)
연구 등록 날짜
최초 제출
QC 기준을 충족하는 최초 제출
처음 게시됨 (실제)
연구 기록 업데이트
마지막 업데이트 게시됨 (실제)
QC 기준을 충족하는 마지막 업데이트 제출
마지막으로 확인됨
추가 정보
이 연구와 관련된 용어
기타 연구 ID 번호
- K10349
- 2024-I2M-CT-B-035 (기타 보조금/기금 번호: CAMS Innovation Fund for Medical Sciences)
- I-26PJ0568 (기타 식별자: Ethics Committee, Peking Union Medical College Hospital)
개별 참가자 데이터(IPD) 계획
개별 참가자 데이터(IPD)를 공유할 계획입니까?
IPD 계획 설명
IPD 공유 기간
IPD 공유 액세스 기준
IPD 공유 지원 정보 유형
- 연구_프로토콜
- 수액
- ANALYTIC_CODE
약물 및 장치 정보, 연구 문서
미국 FDA 규제 의약품 연구
미국 FDA 규제 기기 제품 연구
이 정보는 변경 없이 clinicaltrials.gov 웹사이트에서 직접 가져온 것입니다. 귀하의 연구 세부 정보를 변경, 제거 또는 업데이트하도록 요청하는 경우 register@clinicaltrials.gov. 문의하십시오. 변경 사항이 clinicaltrials.gov에 구현되는 즉시 저희 웹사이트에도 자동으로 업데이트됩니다. .