Ta strona została przetłumaczona automatycznie i dokładność tłumaczenia nie jest gwarantowana. Proszę odnieść się do angielska wersja za tekst źródłowy.

Opracowanie wzorca dla sztucznej inteligencji interpretującej ultrasonografię piersi oraz ocena wydajności multimodalnych modeli AI (BUST-AI Bench)

24 marca 2026 zaktualizowane przez: Qingli Zhu, Peking Union Medical College Hospital

Opracowanie znormalizowanego systemu oceny referencyjnej dla inteligentnej interpretacji obrazów ultrasonograficznych piersi oraz systematyczna ocena wydajności multimodalnych modeli sztucznej inteligencji oparta na kryteriach ACR BI-RADS v2025

To jednostkowe, retrospektywne, obserwacyjne badanie ma na celu stworzenie znormalizowanego systemu oceny referencyjnej dla inteligentnej interpretacji obrazów ultrasonograficznych piersi oraz systematyczną ocenę wydajności diagnostycznej obecnych głównych wielomodalnych modeli sztucznej inteligencji (AI).

Zanonimizowane obrazy ultrasonograficzne piersi w trybie B z potwierdzonymi rozpoznaniami patologicznymi zostaną retrospektywnie zebrane z archiwum instytucjonalnego (2018-2025) i uzupełnione obrazami z opublikowanych otwartych zbiorów danych. Eksperci radiologowie o różnym poziomie doświadczenia niezależnie oznaczą wszystkie obrazy zgodnie z kryteriami American College of Radiology (ACR) Breast Imaging Reporting and Data System (BI-RADS) wersja 2025, w tym skład tkanki gruczołowej, charakterystykę zmian (zmiana ogniskowa vs. zmiana nieogniskowa), deskryptory morfologiczne oraz końcową klasyfikację BI-RADS.

Podstawowe modele głębokiego uczenia (oparty na CNN ResNet-50 i oparty na Transformerze USFM) zostaną wytrenowane w celu ustalenia podstawowych poziomów wydajności oraz stratyfikacji przypadków według trudności diagnostycznej poprzez konsensus międzyarchitektoniczny. Następnie wiele wielomodalnych dużych modeli językowych (MLLM), w tym zarówno modele ogólnego przeznaczenia, jak i modele z dziedziny medycyny, zostanie ocenionych za pomocą znormalizowanych wywołań API przy użyciu podpowiedzi BI-RADS-guided chain-of-thought w temperaturze 0 dla powtarzalności.

Główne punkty końcowe obejmują dokładność klasyfikacji BI-RADS oraz diagnostyczne AUC dla różnicowania łagodne-złośliwe. Odporność i bezpieczeństwo modeli zostaną ocenione poprzez testy odrzucania poza rozkładem, eksperymenty stabilności temperaturowej oraz badania ablacyjne trybu myślenia. Badanie to przestrzega wytycznych raportowania FLAIR i TRIPOD-LLM.

Przegląd badań

Szczegółowy opis

Tło: Rak piersi jest najczęstszym nowotworem złośliwym wśród kobiet na całym świecie. Ultrasonografia jest pierwszorzędową metodą przesiewową, szczególnie w populacjach azjatyckich z gęstą tkanką piersi, gdzie czułość mammografii jest ograniczona. Jednak interpretacja ultrasonograficzna jest wysoce zależna od operatora, z istotną zmiennością między obserwatorami w klasyfikacji BI-RADS, zwłaszcza dla zmian kategorii 4A-4B. Wielomodalne duże modele językowe (MLLMs) pojawiły się jako obiecujące narzędzie do analizy obrazów medycznych dzięki ich zdolności do diagnostyki zero-shot, interpretowalnemu rozumowaniu w łańcuchu myśli oraz generowaniu ustrukturyzowanych raportów. Niemniej jednak, obecnie nie ma ustandaryzowanego benchmarku do oceny wydajności AI w interpretacji ultrasonografii piersi.

Projekt badania: Około 1 380 obrazów ultrasonograficznych piersi zostanie zebranych (1 200 zestaw oceny + 150 zestaw testowy bezpieczeństwa poza dystrybucją + 30 zestaw rozwoju promptów), obejmując trzy kategorie diagnostyczne: normalna pierś, zmiany łagodne (BI-RADS 2-4B) oraz zmiany złośliwe (BI-RADS 3-5). Dwóch młodszych radiologów (<5 lat doświadczenia) i dwóch starszych radiologów (>15 lat) niezależnie oznakuje obrazy zgodnie z ACR BI-RADS v2025, z arbitrażem piątego eksperta w przypadkach rozbieżnych.

Trudność diagnostyczna zostanie podzielona na trzy poziomy przy użyciu konsensusu głębokiego uczenia się międzyarchitektonicznego: Poziom 1 (prosty, oba modele poprawne), Poziom 2 (niejednoznaczny, jeden poprawny/jeden niepoprawny) oraz Poziom 3 (trudny, oba niepoprawne, z walidacją starszego eksperta). MLLMs będą oceniane w wielu wymiarach: dokładność klasyfikacji, czułość, specyficzność, wynik F1, AUC, zgodność kappa Cohena z konsensusem ekspertów, błąd kalibracji oczekiwany (ECE), dokładność opisu cech morfologicznych oraz jakość rozumowania w łańcuchu myśli.

Ocena bezpieczeństwa: (1) Test odrzucenia poza dystrybucją przy użyciu 150 obrazów niediagnostycznych (obrazy zdegradowane, ultrasonografia nie-piersi, inne modalności obrazowania); (2) Eksperyment wstępny stabilności temperaturowej w różnych ustawieniach parametrów; (3) Ablacja trybu myślenia porównująca standardowy tryb z trybem rozumowania w łańcuchu myśli. Wszystkie eksperymenty używają stałych snapshotów modeli, monitorowania odcisku systemu oraz pełnego logowania dla powtarzalności.

Typ studiów

Obserwacyjny

Zapisy (Szacowany)

1380

Kontakty i lokalizacje

Ta sekcja zawiera dane kontaktowe osób prowadzących badanie oraz informacje o tym, gdzie badanie jest przeprowadzane.

Kontakt w sprawie studiów

  • Nazwa: Qingli Zhu, MD
  • Numer telefonu: +86 13621376699
  • E-mail: zqlpumch@126.com

Kopia zapasowa kontaktu do badania

Lokalizacje studiów

      • Beijing, Chiny, 100730
        • Rekrutacyjny
        • Peking Union Medical College Hospital
        • Kontakt:

Kryteria uczestnictwa

Badacze szukają osób, które pasują do określonego opisu, zwanego kryteriami kwalifikacyjnymi. Niektóre przykłady tych kryteriów to ogólny stan zdrowia danej osoby lub wcześniejsze leczenie.

Kryteria kwalifikacji

Wiek uprawniający do nauki

  • Dorosły
  • Starszy dorosły

Akceptuje zdrowych ochotników

Tak

Metoda próbkowania

Próbka bez prawdopodobieństwa

Badana populacja

Zanonimizowane obrazy ultrasonograficzne piersi od dorosłych pacjentek, które przeszły badanie ultrasonograficzne piersi w Szpitalu Uniwersyteckim Peking Union Medical College w latach 2018–2025 z późniejszym potwierdzeniem patologicznym, uzupełnione obrazami z opublikowanych, zatwierdzonych etycznie, otwartych zestawów danych ultrasonograficznych piersi (np. BUSI, BrEaST).

Opis

Kryteria włączenia:

  • Obrazy w skali szarości ultrasonografii piersi w trybie B z instytucjonalnej bazy danych PACS lub z opublikowanych, otwartych zbiorów danych ultrasonograficznych piersi z udokumentowaną oryginalną zgodą instytucjonalnej komisji etycznej
  • Jakość obrazu wystarczająca do postawienia diagnozy klinicznej z wyraźną wizualizacją obszaru zainteresowania
  • Potwierdzone rozpoznanie patologiczne (dla grup zmian łagodnych i złośliwych) lub potwierdzony prawidłowy stan piersi przez starszego radiologa z >15-letnim doświadczeniem w ultrasonografii piersi (dla grupy prawidłowej)
  • Pełna anonimizacja z usunięciem wszystkich danych osobowych umożliwiających identyfikację

Kryteria wykluczenia:

  • Znacznie obniżona jakość obrazu uniemożliwiająca znaczącą ocenę wg systemu BI-RADS
  • Duplikaty obrazów tego samego pacjenta (zachowano tylko najbardziej reprezentatywny obraz na zmianę)
  • Obrazy z pozostałymi danymi osobowymi umożliwiającymi identyfikację po przetworzeniu anonimizującym
  • Przypadki z niejednoznacznymi, kwestionowanymi lub niedostępnymi wynikami patologicznymi
  • Obrazy ultrasonograficzne inne niż w trybie B, w tym elastografia, ultrasonografia kontrastowa i obrazowanie Dopplerowskie

Plan studiów

Ta sekcja zawiera szczegółowe informacje na temat planu badania, w tym sposób zaprojektowania badania i jego pomiary.

Jak projektuje się badanie?

Szczegóły projektu

Kohorty i interwencje

Grupa / Kohorta
Interwencja / Leczenie
Normalna Piers
Obrazy ultrasonograficzne piersi przedstawiające prawidłową tkankę gruczołową w różnych typach składu tkankowego, bez zidentyfikowanych ogniskowych zmian. Potwierdzone przez konsultację starszego radiologa.
Retrospektywna ocena zanonimizowanych obrazów ultrasonograficznych piersi przez wiele systemów sztucznej inteligencji, w tym podstawowe modele głębokiego uczenia (ResNet-50, USFM) oraz multimodalne duże modele językowe, z wykorzystaniem standaryzowanych podpowiedzi łańcucha myślowego opartych na BI-RADS za pośrednictwem API. Nie obejmuje kontaktu z pacjentem ani podejmowania decyzji klinicznych.
Łagodna zmiana
Obrazy ultrasonograficzne piersi zawierające patologicznie potwierdzone zmiany łagodne (BI-RADS 2-4B), w tym włókniakogruczolak, torbiel, tłuszczak, stwardniający rozrost gruczołów, brodawczak śródprzewodowy oraz wybrane zmiany niemasywne (NML).
Retrospektywna ocena zanonimizowanych obrazów ultrasonograficznych piersi przez wiele systemów sztucznej inteligencji, w tym podstawowe modele głębokiego uczenia (ResNet-50, USFM) oraz multimodalne duże modele językowe, z wykorzystaniem standaryzowanych podpowiedzi łańcucha myślowego opartych na BI-RADS za pośrednictwem API. Nie obejmuje kontaktu z pacjentem ani podejmowania decyzji klinicznych.
Zmiana złośliwa
Obrazy ultrasonograficzne piersi zawierające patologicznie potwierdzone zmiany złośliwe (BI-RADS 3-5), w tym inwazyjny rak przewodowy, inwazyjny rak zrazikowy, rak śluzowy oraz wybrane zmiany niemasywne (NML).
Retrospektywna ocena zanonimizowanych obrazów ultrasonograficznych piersi przez wiele systemów sztucznej inteligencji, w tym podstawowe modele głębokiego uczenia (ResNet-50, USFM) oraz multimodalne duże modele językowe, z wykorzystaniem standaryzowanych podpowiedzi łańcucha myślowego opartych na BI-RADS za pośrednictwem API. Nie obejmuje kontaktu z pacjentem ani podejmowania decyzji klinicznych.

Co mierzy badanie?

Podstawowe miary wyniku

Miara wyniku
Opis środka
Ramy czasowe
Dokładność diagnostyczna w rozpoznaniu patologicznym
Ramy czasowe: Po zakończeniu badania, około 12 miesięcy
Czułość, swoistość, dodatnia wartość predykcyjna (DWP), ujemna wartość predykcyjna (UWP) i wynik F1 modeli AI do klasyfikacji łagodny-złośliwy, z histopatologiczną diagnozą jako złoty standard.
Po zakończeniu badania, około 12 miesięcy
Dokładność klasyfikacji BI-RADS
Ramy czasowe: Po zakończeniu badania, około 12 miesięcy
Ogólna dokładność modeli sztucznej inteligencji w przypisywaniu kategorii BI-RADS (2, 3, 4A, 4B, 4C, 5) do obrazów ultrasonograficznych piersi, w porównaniu z ekspercką adnotacją konsensusową jako standardem referencyjnym.
Po zakończeniu badania, około 12 miesięcy

Miary wyników drugorzędnych

Miara wyniku
Opis środka
Ramy czasowe
Zgodność z konsensusem ekspertów (Kappa Cohena)
Ramy czasowe: Po zakończeniu badania, około 12 miesięcy
Współczynnik kappa Cohena mierzący zgodność pomiędzy klasyfikacją BI-RADS każdego modelu AI a adnotacją eksperckiego konsensusu, podany z 95-procentowymi przedziałami ufności.
Po zakończeniu badania, około 12 miesięcy
Wskaźnik Odrzuceń poza Rozkładem
Ramy czasowe: Po zakończeniu badania, około 12 miesięcy
Proporcja obrazów nierozpoznawczych (obrazów o obniżonej jakości, ultrasonografii niebędącej badaniem piersi, innych modalności obrazowania) poprawnie zidentyfikowanych i odrzuconych przez modele AI, oceniająca bezpieczeństwo domeny.
Po zakończeniu badania, około 12 miesięcy
Czułość, Swoistość, PPV, NPV i Wskaźnik F1
Ramy czasowe: Po zakończeniu badania, około 12 miesięcy
Standardowe wskaźniki wydajności diagnostycznej dla klasyfikacji łagodny-złośliwy, raportowane dla każdego modelu AI indywidualnie.
Po zakończeniu badania, około 12 miesięcy

Współpracownicy i badacze

Tutaj znajdziesz osoby i organizacje zaangażowane w to badanie.

Śledczy

  • Główny śledczy: Qingli Zhu, MD, Peking Union Medical College Hospital

Publikacje i pomocne linki

Osoba odpowiedzialna za wprowadzenie informacji o badaniu dobrowolnie udostępnia te publikacje. Mogą one dotyczyć wszystkiego, co jest związane z badaniem.

Publikacje ogólne

Daty zapisu na studia

Daty te śledzą postęp w przesyłaniu rekordów badań i podsumowań wyników do ClinicalTrials.gov. Zapisy badań i zgłoszone wyniki są przeglądane przez National Library of Medicine (NLM), aby upewnić się, że spełniają określone standardy kontroli jakości, zanim zostaną opublikowane na publicznej stronie internetowej.

Główne daty studiów

Rozpoczęcie studiów (Rzeczywisty)

12 marca 2026

Zakończenie podstawowe (Szacowany)

1 grudnia 2026

Ukończenie studiów (Szacowany)

1 marca 2027

Daty rejestracji na studia

Pierwszy przesłany

24 marca 2026

Pierwszy przesłany, który spełnia kryteria kontroli jakości

24 marca 2026

Pierwszy wysłany (Rzeczywisty)

30 marca 2026

Aktualizacje rekordów badań

Ostatnia wysłana aktualizacja (Rzeczywisty)

30 marca 2026

Ostatnia przesłana aktualizacja, która spełniała kryteria kontroli jakości

24 marca 2026

Ostatnia weryfikacja

1 marca 2026

Więcej informacji

Terminy związane z tym badaniem

Inne numery identyfikacyjne badania

  • K10349
  • 2024-I2M-CT-B-035 (Inny numer grantu/finansowania: CAMS Innovation Fund for Medical Sciences)
  • I-26PJ0568 (Inny identyfikator: Ethics Committee, Peking Union Medical College Hospital)

Plan dla danych uczestnika indywidualnego (IPD)

Planujesz udostępniać dane poszczególnych uczestników (IPD)?

TAK

Opis planu IPD

Anonimizowany zbiór danych do oceny porównawczej, obejmujący ekspercko opatrzone adnotacjami obrazy ultrasonograficzne piersi z powiązanymi raportami odczytów BI-RADS, jest planowany do publicznego udostępnienia w celu promowania powtarzalności akademickiej i badań współpracy.

Ramy czasowe udostępniania IPD

W ciągu 6 miesięcy od pierwotnej publikacji, dostępne na czas nieokreślony

Kryteria dostępu do udostępniania IPD

Otwarty dostęp za pośrednictwem uznanego repozytorium danych (do ustalenia)

Typ informacji pomocniczych dotyczących udostępniania IPD

  • PROTOKÓŁ BADANIA
  • SOK ROŚLINNY
  • ANALITYCZNY_KOD

Informacje o lekach i urządzeniach, dokumenty badawcze

Bada produkt leczniczy regulowany przez amerykańską FDA

Nie

Bada produkt urządzenia regulowany przez amerykańską FDA

Nie

Te informacje zostały pobrane bezpośrednio ze strony internetowej clinicaltrials.gov bez żadnych zmian. Jeśli chcesz zmienić, usunąć lub zaktualizować dane swojego badania, skontaktuj się z register@clinicaltrials.gov. Gdy tylko zmiana zostanie wprowadzona na stronie clinicaltrials.gov, zostanie ona automatycznie zaktualizowana również na naszej stronie internetowej .

Badania kliniczne na Nowotwory piersi

Badania kliniczne na Wielomodalna Ocena Diagnostyczna Modelu AI

Subskrybuj