이 페이지는 자동 번역되었으며 번역의 정확성을 보장하지 않습니다. 참조하십시오 영문판 원본 텍스트의 경우.

유방 초음파 AI 판독 벤치마크 구축 및 멀티모달 AI 모델 성능 평가 (BUST-AI Bench)

2026년 3월 24일 업데이트: Qingli Zhu, Peking Union Medical College Hospital

ACR BI-RADS v2025 기준에 기반한 다중모달 인공지능 모델의 체계적 성능 평가 및 지능형 유방 초음파 영상 판독을 위한 표준화된 벤치마크 평가 시스템 구축

이 단일 기관, 후향적, 관찰 연구는 지능형 유방 초음파 이미지 해석을 위한 표준화된 벤치마크 평가 시스템을 구축하고, 현재 주류 다중 모드 인공지능(AI) 모델들의 진단 성능을 체계적으로 평가하는 것을 목표로 합니다.

확인된 병리학적 진단이 있는 비식별화된 B-모드 유방 초음파 이미지는 기관 아카이브(2018-2025)에서 후향적으로 수집되며, 공개된 오픈 액세스 데이터셋의 이미지로 보완될 예정입니다. 다양한 경험 수준을 가진 전문 영상의학과 의사들은 미국 방사선학회(ACR) 유방 영상 보고 및 데이터 시스템(BI-RADS) v2025 기준에 따라 모든 이미지를 독립적으로 주석 처리할 것입니다. 여기에는 선조직 구성, 병변 특성화(종괴 vs. 비종괴 병변), 형태학적 기술자, 최종 BI-RADS 분류가 포함됩니다.

기준 심층 학습 모델(CNN 기반 ResNet-50 및 Transformer 기반 USFM)은 성능 기준을 설정하고 교차 아키텍처 합의를 통해 진단 난이도별로 사례를 계층화하기 위해 훈련될 예정입니다. 그런 다음 일반 목적 및 의료 분야 모델을 포함한 여러 다중 모드 대규모 언어 모델(MLLM)들은 재현성을 위해 온도 0에서 BI-RADS 가이드 사고 연쇄 프롬프트를 사용한 표준화된 API 호출을 통해 평가될 것입니다.

주요 종료점에는 BI-RADS 분류 정확도 및 양성-악성 감별을 위한 진단 AUC가 포함됩니다. 모델 견고성과 안전성은 분포 외 거부 테스트, 온도 안정성 실험 및 사고 모드 절제 연구를 통해 평가될 것입니다. 이 연구는 FLAIR 및 TRIPOD-LLM 보고 지침을 준수합니다.

연구 개요

상태

모병

정황

개입 / 치료

진단 검사: 멀티모달 AI 모델 진단 평가

상세 설명

배경: 유방암은 전 세계 여성에서 가장 흔한 악성 종양입니다. 초음파는 특히 유방조직이 치밀하여 유방촬영술의 민감도가 제한적인 아시아 인구에서 일차 선별 검사 방법입니다. 그러나 초음파 판독은 검사자에 크게 의존하며, 특히 BI-RADS 4A-4B 병변에서 관찰자 간 변동성이 상당합니다. 멀티모달 대규모 언어 모델(MLLM)은 제로샷 진단 능력, 해석 가능한 사고 연쇄 추론 및 구조화된 보고서 생성 기능으로 인해 의료 영상 분석을 위한 유망한 도구로 부상했습니다. 그럼에도 불구하고, 현재까지 유방 초음파 판독에서 AI 성능을 평가하기 위한 표준화된 벤치마크는 존재하지 않습니다.

연구 설계: 약 1,380개의 유방 초음파 영상(평가 세트 1,200개 + 분포 외 안전성 테스트 세트 150개 + 프롬프트 개발 세트 30개)이 선별되며, 정상 유방, 양성 병변(BI-RADS 2-4B), 악성 병변(BI-RADS 3-5)의 세 가지 진단 범주를 포함합니다. 두 명의 초임 방사선과 의사(경력 <5년)와 두 명의 고경력 방사선과 의사(경력 >15년)가 ACR BI-RADS v2025에 따라 영상을 독립적으로 주석 처리하며, 불일치 사례는 다섯 번째 전문가의 중재를 거칩니다.

진단 난이도는 교차 아키텍처 딥러닝 합의를 사용하여 세 단계로 계층화됩니다: 1단계(명확함, 두 모델 모두 정답), 2단계(애매함, 하나 정답/하나 오답), 3단계(어려움, 두 모델 모두 오답, 고경력 전문가 검증 포함). MLLM은 분류 정확도, 민감도, 특이도, F1 점수, AUC, 전문가 합의와의 Cohen's kappa 일치도, 예상 보정 오차(ECE), 형태학적 특징 기술 정확도, 사고 연쇄 추론 품질 등 다양한 차원에서 평가됩니다.

안전성 평가: (1) 150개의 비진단 영상(열화된 영상, 비유방 초음파, 다른 영상 양식)을 사용한 분포 외 거부 테스트; (2) 매개변수 설정 전반의 온도 안정성 사전 실험; (3) 표준 대 사고 연쇄 추론 모드 비교를 통한 사고 모드 절제. 모든 실험은 고정된 모델 스냅샷, 시스템 지문 모니터링 및 재현성을 위한 완전한 로깅을 사용합니다.

연구 유형

관찰

등록 (추정된)

1380

연락처 및 위치

이 섹션에서는 연구를 수행하는 사람들의 연락처 정보와 이 연구가 수행되는 장소에 대한 정보를 제공합니다.

연구 연락처

이름: Qingli Zhu, MD
전화번호: +86 13621376699
이메일: zqlpumch@126.com

연구 연락처 백업

이름: Yinglan Wu, MD
전화번호: +86 15626121076
이메일: wuylan7@gmail.com

연구 장소

중국
- - Beijing, 중국, 100730
    - 모병
    - Peking Union Medical College Hospital
    - 연락하다:
      
      Qingli Zhu, MD
      
      전화번호: +86 13621376699
      
      이메일: zqlpumch@126.com

참여기준

연구원은 적격성 기준이라는 특정 설명에 맞는 사람을 찾습니다. 이러한 기준의 몇 가지 예는 개인의 일반적인 건강 상태 또는 이전 치료입니다.

자격 기준

공부할 수 있는 나이

성인
고령자

건강한 자원 봉사자를 받아들입니다

예

샘플링 방법

비확률 샘플

연구 인구

2018년부터 2025년 사이에 Peking Union Medical College Hospital에서 유방 초음파 검사를 받고 이후 병리학적 확인을 거친 성인 환자의 비식별화된 유방 초음파 영상으로, 출판된 윤리적 승인을 받은 공개 접근 가능한 유방 초음파 데이터셋(예: BUSI, BrEaST)의 영상으로 보완됨.

설명

포함 기준:

기관 PACS 데이터베이스 또는 공개된 공개 접근 가능한 유방 초음파 데이터셋에서 기관 윤리 승인 문서가 있는 B-모드 유방 초음파 그레이스케일 이미지
관심 영역이 명확하게 시각화되어 임상 진단에 적합한 이미지 품질
병리학적 진단 확인 (양성 및 악성 병변군의 경우), 또는 15년 이상의 유방 초음파 경력을 가진 수석 영상의사가 확인한 정상 유방 상태 (정상군의 경우)
모든 개인 식별 정보 제거를 통한 완전한 비식별화

제외 기준:

의미 있는 BI-RADS 평가를 방해할 정도로 심각하게 저하된 이미지 품질
동일 환자의 중복 이미지 (병변당 가장 대표적인 이미지만 보관)
비식별화 처리 후에도 잔류 개인 식별 정보가 있는 이미지
모호하거나 논란이 있거나 사용할 수 없는 병리 결과가 있는 사례
탄성 초음파, 조영 증강 초음파 및 도플러 영상을 포함한 비 B-모드 초음파 이미지

공부 계획

이 섹션에서는 연구 설계 방법과 연구가 측정하는 내용을 포함하여 연구 계획에 대한 세부 정보를 제공합니다.

연구는 어떻게 설계됩니까?

디자인 세부사항

그룹/코호트 수

코호트 및 개입

그룹/코호트	개입 / 치료
정상 유방 다양한 조직 구성 유형에 걸쳐 정상적인 선 조직을 보여주는 유방 초음파 영상으로, 국소 병변은 확인되지 않았습니다. 수석 방사선 전문의 검토로 확인되었습니다.	진단 검사: 멀티모달 AI 모델 진단 평가 API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가. 환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.
양성 병변 병리학적으로 확인된 양성 병변(BI-RADS 2-4B)을 포함하는 유방 초음파 영상으로, 섬유선종, 낭종, 지방종, 경화성 선증, 관내 유두종 및 선택된 비종괴 병변(NML)을 포함합니다.	진단 검사: 멀티모달 AI 모델 진단 평가 API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가. 환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.
악성 병변 병리학적으로 확인된 악성 병변(BI-RADS 3-5)을 포함하는 유방 초음파 이미지로, 침윤성 관암, 침윤성 소엽암, 점액암 및 선택된 비종괴 병변(NML)을 포함합니다.	진단 검사: 멀티모달 AI 모델 진단 평가 API를 통해 표준화된 BI-RADS 지식 기반 연쇄적 사고 프롬프트를 사용하여, 기초 딥러닝 모델(ResNet-50, USFM) 및 다중 모달 대규모 언어 모델을 포함한 다중 AI 시스템에 의한 비식별화 유방 초음파 이미지의 후향적 평가. 환자 접촉이나 임상적 의사 결정은 포함되지 않습니다.

연구는 무엇을 측정합니까?

주요 결과 측정

결과 측정	측정값 설명	기간
병리학적 진단을 위한 진단 정확도 기간: 연구 완료 시, 약 12개월	조직병리학적 진단을 표준으로 한 양성-악성 분류에 대한 AI 모델의 민감도, 특이도, 양성 예측도(PPV), 음성 예측도(NPV) 및 F1 점수	연구 완료 시, 약 12개월
BI-RADS 분류 정확도 기간: 연구 완료 시, 약 12개월	유방 초음파 영상에 BI-RADS 범주(2, 3, 4A, 4B, 4C, 5)를 할당하는 AI 모델의 전체 정확도(기준 표준으로 전문가 합의 주석과 비교).	연구 완료 시, 약 12개월

2차 결과 측정

결과 측정	측정값 설명	기간
전문가 합의와의 일치도 (Cohen's Kappa) 기간: 연구 완료 시, 약 12개월	각 AI 모델의 BI-RADS 분류와 전문가 합의 주석 간의 일치도를 측정하는 Cohen의 카파 계수로, 95% 신뢰 구간과 함께 보고됩니다.	연구 완료 시, 약 12개월
분포 외 거절률 기간: 연구 완료 시, 약 12개월	비진단적 이미지(화질 저하, 비유방 초음파, 기타 영상 기법)의 비율을 AI 모델이 올바르게 식별하고 거부한 비율로, 도메인 안전성을 평가합니다.	연구 완료 시, 약 12개월
민감도, 특이도, 양성예측도, 음성예측도, F1 점수 기간: 연구 완료 시, 약 12개월	양성-악성 분류를 위한 표준 진단 성능 지표, 각 AI 모델별로 개별적으로 보고됨.	연구 완료 시, 약 12개월

공동 작업자 및 조사자

여기에서 이 연구와 관련된 사람과 조직을 찾을 수 있습니다.

스폰서

Peking Union Medical College Hospital

협력자

Chinese Academy of Medical Sciences

수사관

수석 연구원: Qingli Zhu, MD, Peking Union Medical College Hospital

간행물 및 유용한 링크

연구에 대한 정보 입력을 담당하는 사람이 자발적으로 이러한 간행물을 제공합니다. 이것은 연구와 관련된 모든 것에 관한 것일 수 있습니다.

일반 간행물

연구 기록 날짜

이 날짜는 ClinicalTrials.gov에 대한 연구 기록 및 요약 결과 제출의 진행 상황을 추적합니다. 연구 기록 및 보고된 결과는 공개 웹사이트에 게시되기 전에 특정 품질 관리 기준을 충족하는지 확인하기 위해 국립 의학 도서관(NLM)에서 검토합니다.

연구 주요 날짜

연구 시작 (실제)

2026년 3월 12일

기본 완료 (추정된)

2026년 12월 1일

연구 완료 (추정된)

2027년 3월 1일

연구 등록 날짜

최초 제출

2026년 3월 24일

QC 기준을 충족하는 최초 제출

2026년 3월 24일

처음 게시됨 (실제)

2026년 3월 30일

연구 기록 업데이트

마지막 업데이트 게시됨 (실제)

2026년 3월 30일

QC 기준을 충족하는 마지막 업데이트 제출

2026년 3월 24일

마지막으로 확인됨

2026년 3월 1일

추가 정보

이 연구와 관련된 용어

키워드

추가 관련 MeSH 약관

기타 연구 ID 번호

K10349
2024-I2M-CT-B-035 (기타 보조금/기금 번호: CAMS Innovation Fund for Medical Sciences)
I-26PJ0568 (기타 식별자: Ethics Committee, Peking Union Medical College Hospital)

개별 참가자 데이터(IPD) 계획

개별 참가자 데이터(IPD)를 공유할 계획입니까?

예

IPD 계획 설명

전문가 주석이 달린 유방 초음파 이미지와 짝을 이루는 BI-RADS 판독 보고서를 포함한 비식별화된 벤치마크 평가 데이터셋은 학문적 재현성과 협력적 연구를 촉진하기 위해 공개 출시될 예정입니다.

IPD 공유 기간

주요 출판 후 6개월 이내에, 무기한 이용 가능

IPD 공유 액세스 기준

인정받는 데이터 저장소를 통한 오픈 액세스(향후 결정)

IPD 공유 지원 정보 유형

연구_프로토콜
수액
ANALYTIC_CODE

약물 및 장치 정보, 연구 문서

미국 FDA 규제 의약품 연구

아니

미국 FDA 규제 기기 제품 연구

아니

이 정보는 변경 없이 clinicaltrials.gov 웹사이트에서 직접 가져온 것입니다. 귀하의 연구 세부 정보를 변경, 제거 또는 업데이트하도록 요청하는 경우 register@clinicaltrials.gov. 문의하십시오. 변경 사항이 clinicaltrials.gov에 구현되는 즉시 저희 웹사이트에도 자동으로 업데이트됩니다. .

유방 신생물에 대한 임상 시험

Cairo University

아직 모집하지 않음

아랍판 유방 설문지의 타당성 및 신뢰성

BREAST-Q

유방 초음파 AI 판독 벤치마크 구축 및 멀티모달 AI 모델 성능 평가 (BUST-AI Bench)

ACR BI-RADS v2025 기준에 기반한 다중모달 인공지능 모델의 체계적 성능 평가 및 지능형 유방 초음파 영상 판독을 위한 표준화된 벤치마크 평가 시스템 구축

연구 개요

상태

정황

개입 / 치료

상세 설명

연구 유형

등록 (추정된)

연락처 및 위치

연구 연락처

연구 연락처 백업

연구 장소

참여기준

자격 기준

공부할 수 있는 나이

건강한 자원 봉사자를 받아들입니다

샘플링 방법

연구 인구

설명

공부 계획

연구는 어떻게 설계됩니까?

디자인 세부사항

그룹/코호트 수

코호트 및 개입

그룹/코호트

개입 / 치료

연구는 무엇을 측정합니까?

주요 결과 측정

결과 측정

측정값 설명

기간

2차 결과 측정

결과 측정

측정값 설명

기간

공동 작업자 및 조사자

스폰서

협력자

수사관

간행물 및 유용한 링크

일반 간행물

연구 기록 날짜

연구 주요 날짜

연구 시작 (실제)

기본 완료 (추정된)

연구 완료 (추정된)

연구 등록 날짜

최초 제출

QC 기준을 충족하는 최초 제출

처음 게시됨 (실제)

연구 기록 업데이트

마지막 업데이트 게시됨 (실제)

QC 기준을 충족하는 마지막 업데이트 제출

마지막으로 확인됨

추가 정보

이 연구와 관련된 용어

키워드

추가 관련 MeSH 약관

기타 연구 ID 번호

개별 참가자 데이터(IPD) 계획

개별 참가자 데이터(IPD)를 공유할 계획입니까?

IPD 계획 설명

IPD 공유 기간

IPD 공유 액세스 기준

IPD 공유 지원 정보 유형

약물 및 장치 정보, 연구 문서

미국 FDA 규제 의약품 연구

미국 FDA 규제 기기 제품 연구

유방 신생물에 대한 임상 시험

유사한 임상시험 검색

스폰서 및 공동 작업자

건강 상태

약물 개입

CROs by country

CROs in Cameroon

정황

희귀 질병

약물 개입

식이 보충제