Ta strona została przetłumaczona automatycznie i dokładność tłumaczenia nie jest gwarantowana. Proszę odnieść się do angielska wersja za tekst źródłowy.

Projekt 3 Przykład: Tester współpracy człowiek-AI (HAICT) Exp. 7

29 grudnia 2025 zaktualizowane przez: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Badanie jest częścią „pakietu” eksperymentów, które składają się na trzeci projekt grantu National Eye Institute. Projekt trzeci obejmuje serię eksperymentów, które badają, w jaki sposób zmiana danych wejściowych z symulowanej sztucznej inteligencji może wpłynąć na decyzje podejmowane przez ludzkich obserwatorów w zadaniu wymuszonego wyboru dwóch alternatywnych (takich jak decyzja o wezwaniu kobiety do dalszego badania mammograficznego). Opisany tutaj eksperyment HAICT 7 bada, w jaki sposób zmieniająca się częstość występowania wpływa na wydajność człowieka, gdy sztuczna inteligencja jest używana jako drugi czytelnik.

Przegląd badań

Szczegółowy opis

Ten tekst jest tekstem wstępnej rejestracji do eksperymentu HAICT 7, jak opisano w Open Science Framework. https://osf.io/hngu4/

UWAGA: To badanie jest reprezentatywne dla badań przeprowadzonych w ramach Projektu 3 tego grantu. Istnieje wiele eksperymentów w pakiecie eksperymentów reprezentowanym przez Projekt 3, ale nie można zarejestrować pakietu badań na CT.gov.

UWAGA: Ponieważ komentarz zaimkowy ma charakter doradczy, zostawimy go na razie.

Tester współpracy człowiek-AI (HAICT) Exp. 7 (lekko zredagowane z OSF)

  1. Zbieranie danych. Czy zebrano już jakieś dane do tego badania? (Tak nie)

    Tak

  2. Hipoteza. Jakie jest główne zadawane pytanie lub testowana hipoteza w tym badaniu?

Tło: W różnych eksperymentach poszukiwawczych, zarówno podstawowych, jak i klinicznych, dane były zgodne z sytuacją, w której zmienność sygnału (lub celu) jest większa niż zmienność szumu (dystraktory). Klasycznym tego znakiem jest funkcja zROC o nachyleniu < 1 - zwykle około 0,6. Nachylenie 1,0 wskazuje na zadanie 2AFC o równej wariancji. W przypadku zadania HAICT, które testowaliśmy, spodziewalibyśmy się równej wariancji, ale uważamy, że warto byłoby to sprawdzić, więc będziemy systematycznie różnicować rozpowszechnienie, które zmieni kryterium. To zmiata krzywą ROC, którą możemy zbadać.

Przetestujemy również sztuczną inteligencję Drugiego Czytelnika, aby ustalić, czy niskie rozpowszechnienie sprawia, że ​​Drugi Czytelnik jest gorszy.

  • (H1): Oczekujemy powtórzenia odkrycia, że ​​kryteria dotyczące ludzi stają się bardziej konserwatywne wraz ze spadkiem rozpowszechnienia.
  • (H2): Przewidujemy, że nachylenie wynikowego zROC wyniesie 1,0.
  • (H3): Stawiamy hipotezę, że niska częstość występowania sprawi, że sztuczna inteligencja drugiego czytelnika będzie mniej skuteczna, ponieważ pozytywna wartość predykcyjna jej komentarzy będzie niska.

    1. Zmienna zależna. Opisz kluczowe zmienne zależne, określając sposób ich pomiaru.

      Głównymi zmiennymi zależnymi będącymi przedmiotem zainteresowania są dokładność (oraz pochodne dokładności wykrywania sygnału, d' i c), czas reakcji i subiektywne oceny ankiety następującej po każdym bloku.

    2. Warunki. Do ilu i do jakich warunków zostaną przydzieleni uczestnicy?

Ta seria eksperymentów ma na celu zbadanie, w jaki sposób zmiana danych wejściowych z symulowanej sztucznej inteligencji może wpłynąć na decyzje podejmowane przez ludzkich obserwatorów w zadaniu z wymuszonym wyborem dwóch alternatywnych rozwiązań (takich jak decyzja o wezwaniu kobiety do dalszego badania mammograficznego). Opracowaliśmy paradygmat zwany Human-AI Collaboration Tester (HAICT), który pozwala na wydajne testowanie interakcji między człowiekiem a symulowaną sztuczną inteligencją.

Zadaniem obserwatorów w każdych warunkach jest wydanie decyzji 2AFC o tym, czy bodziec jest „zły”, czy „niezły”. Używając języka z grubsza naśladującego diagnozę medyczną, każdy bodziec jest określany jako „przypadek”. Obserwatorzy proszeni są o podjęcie decyzji 2AFC dotyczącej tablic kolorowych kształtów. Decyzja jest podejmowana na podstawie dominującego koloru obudowy. Liczba elementów każdego koloru jest losowana z jednego z dwóch rozkładów normalnych, jednego dla bodźców pozytywnych (złych), a drugiego dla bodźców negatywnych (niezłych).

Wyniki poprzednich eksperymentów HAICT (3 i 4) pokazały, że wydajność człowieka w stanie Drugiego Czytelnika znacznie spada przy niskim rozpowszechnieniu. Wydajność w stanie Drugiego Czytelnika była lepsza niż w punkcie wyjściowym, gdy częstość występowania złych przypadków wynosiła 50%, ale była znacznie gorsza niż w stanie wyjściowym, gdy częstość występowania wynosiła tylko 10%. W tym eksperymencie manipulujemy częstością występowania „złych” przypadków w warunkach drugiego czytelnika i linii bazowej. Zostaną przetestowane cztery różne wskaźniki rozpowszechnienia – 10%, 33%, 67% i 90%. Obserwatorzy ukończą 8 bloków (2 zasady AI x 4 współczynniki rozpowszechnienia), a kolejność bloków jest losowa.

Zasady AI do przetestowania:

  1. Linia bazowa — brak danych wejściowych AI. Obserwator samodzielnie klasyfikuje każdy przypadek jako „zły” lub „nie” zły.
  2. Drugi czytelnik – Obserwator podejmuje wstępną decyzję w każdym przypadku. Sztuczna inteligencja po cichu klasyfikuje bodźce przy użyciu konserwatywnego kryterium (c = 0,5). Logika konserwatywnego kryterium polega na tym, że drugi czytnik jest używany do ograniczenia fałszywie pozytywnych odpowiedzi, dlatego ma on na celu zakwestionowanie pozytywnych odpowiedzi ludzkich, które mogą być marginalne. Jeśli obserwator i sztuczna inteligencja nie zgadzają się, sztuczna inteligencja informuje obserwatora-człowieka. Obserwator ma wtedy szansę albo zmienić swoją odpowiedź, albo poprzeć swoją pierwszą opinię.

    Podobnie jak w Eksperymentach 1-5, AI d-prime jest ustalona na 2,2. Wiadomo, że informacje zwrotne zwiększają efekt rozpowszechnienia, więc informacje zwrotne będą przekazywane zarówno w praktyce, jak iw próbach testowych. Obserwatorzy wykonają 20 prób praktycznych i 200 prób testowych w każdym bloku. Natychmiast po zakończeniu każdego bloku obserwatorom zostanie wyświetlone podsumowanie ich wyników. Po blokach drugiego czytelnika zostaną również poproszeni o udzielenie odpowiedzi na trzy subiektywne pytania dotyczące użyteczności sztucznej inteligencji (więcej szczegółów w sekcji „Pliki”).

  3. Ćwiczenie. Określ dokładnie, jakie analizy przeprowadzisz w celu zbadania głównego pytania/hipotezy.

    Najpierw podsumowujemy liczbę trafień, prawdziwych negatywów, chybień i fałszywych alarmów w każdym bloku. Na tej podstawie możemy obliczyć dokładność, dodatnią wartość predykcyjną, czułość (d-prime) oraz kryterium dla każdego obserwatora w każdych różnych warunkach. Biorąc pod uwagę miary wydajności na 4 poziomach rozpowszechnienia, możemy oszacować krzywą ROC (pHit x pFA) i funkcję zROC (zHit x zFA). Przetestujemy hipotezę, że nachylenie zROC jest równe 1 (konsekwencja zadania 2AFC o równej wariancji).

  4. Więcej analiz. Jakieś dodatkowe analizy?

    Przyjrzymy się, czy subiektywne opinie obserwatorów na temat sztucznej inteligencji są skorelowane ze zmiennymi, takimi jak empiryczna d-prime lub dodatnia wartość predykcyjna.

  5. Wielkość próbki. Ile obserwacji zostanie zebranych lub co zadecyduje o wielkości próby? Nie trzeba uzasadniać decyzji, ale należy dokładnie określić, w jaki sposób zostanie ustalona liczba.

    Przetestujemy 12 obserwatorów. Jest to zgodne z rozmiarami próbek z poprzednich eksperymentów.

  6. Inny. Czy jest coś jeszcze, co chciałbyś wstępnie zarejestrować? (np. wykluczenia danych, zmienne zbierane do celów eksploracyjnych, planowane nietypowe analizy?)

Nie dotyczy

Typ studiów

Interwencyjne

Zapisy (Rzeczywisty)

12

Faza

  • Nie dotyczy

Kontakty i lokalizacje

Ta sekcja zawiera dane kontaktowe osób prowadzących badanie oraz informacje o tym, gdzie badanie jest przeprowadzane.

Lokalizacje studiów

    • Massachusetts
      • Boston, Massachusetts, Stany Zjednoczone, 02215
        • Visual Attention Lab / Brigham and Women's Hospital

Kryteria uczestnictwa

Badacze szukają osób, które pasują do określonego opisu, zwanego kryteriami kwalifikacyjnymi. Niektóre przykłady tych kryteriów to ogólny stan zdrowia danej osoby lub wcześniejsze leczenie.

Kryteria kwalifikacji

Wiek uprawniający do nauki

18 lat i starsze (Dorosły, Starszy dorosły)

Akceptuje zdrowych ochotników

Tak

Opis

Kryteria przyjęcia:

  • - Zapraszamy do zapisów on-line

Kryteria wyłączenia:

  • Musi przejść test przesiewowy widzenia kolorów Ishihara
  • Wizja 20/25 (z korekcją)

Plan studiów

Ta sekcja zawiera szczegółowe informacje na temat planu badania, w tym sposób zaprojektowania badania i jego pomiary.

Jak projektuje się badanie?

Szczegóły projektu

  • Główny cel: Podstawowa nauka
  • Przydział: Nie dotyczy
  • Model interwencyjny: Zadanie dla jednej grupy
  • Maskowanie: Brak (otwarta etykieta)

Broń i interwencje

Grupa uczestników / Arm
Interwencja / Leczenie
Eksperymentalny: Eksperyment
Wszyscy uczestnicy są testowani we wszystkich warunkach tego eksperymentu.
W tym eksperymencie w pewnych warunkach uczestnik podejmuje decyzję w obecności informacji o symulowanej decyzji sztucznej inteligencji.
Częstotliwość prezentowania celów waha się od 10% do 90%
Inne nazwy:
  • Stopa bazowa

Co mierzy badanie?

Podstawowe miary wyniku

Miara wyniku
Opis środka
Ramy czasowe
D'
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
D' (d-prime) to miara teorii wykrywania sygnałów określająca poziom wykonania zadania. Jest obliczana poprzez obliczenie odsetka prawdziwie pozytywnych odpowiedzi = (próby prawdziwie pozytywne) / (próby prawdziwie pozytywne + próby fałszywie negatywne) = p(TP) oraz poprzez obliczenie odsetka fałszywie pozytywnych odpowiedzi = (próby fałszywie pozytywne) / (próby fałszywie pozytywne + próby prawdziwie negatywne) = p(FP). Te wartości są przekształcane na 'wyniki z' (na przykład przy użyciu funkcji NORMSINV w Excelu do obliczenia odwrotności standardowego rozkładu normalnego). D' jest zdefiniowane jako Z(TP)-Z(FP). Jego zakres wynosi od 0 dla przypadków, w których żaden sygnał nie może być odróżniony od szumu, do ~4,0. Górna granica nie jest zdefiniowana, ale wartość 4 oznaczałaby, że obserwator jest praktycznie doskonały w odróżnianiu sygnału od szumu.
Dane są zbierane podczas sesji trwającej około godziny.
Kryterium
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
Kryterium, podobnie jak D' (patrz wyżej), jest obliczane na podstawie z(TP) i z(FP). Kryterium ( c ) = (z(TP)+z(FP))/-2. Wartość zero oznacza, że obserwator ma takie samo prawdopodobieństwo udzielenia odpowiedzi pozytywnej (np. 'cel obecny'), jak negatywnej (nieobecny). Wartości dodatnie oznaczają, że obserwator częściej mówi "nieobecny" (kryterium "konserwatywne"). Wartości ujemne oznaczają, że obserwator częściej mówi "obecny" (kryterium "liberalne"). Terminy liberalny i konserwatywny nie mają w tym przypadku konotacji politycznych. Wartości kryterium prawie zawsze mieszczą się w przedziale od -2 do 2.
Dane są zbierane podczas sesji trwającej około godziny.

Miary wyników drugorzędnych

Miara wyniku
Opis środka
Ramy czasowe
Czas Reakcji
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
To jest miara tego, jak długo trwa udzielenie odpowiedzi.
Dane są zbierane podczas sesji trwającej około godziny.

Współpracownicy i badacze

Tutaj znajdziesz osoby i organizacje zaangażowane w to badanie.

Śledczy

  • Główny śledczy: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Daty zapisu na studia

Daty te śledzą postęp w przesyłaniu rekordów badań i podsumowań wyników do ClinicalTrials.gov. Zapisy badań i zgłoszone wyniki są przeglądane przez National Library of Medicine (NLM), aby upewnić się, że spełniają określone standardy kontroli jakości, zanim zostaną opublikowane na publicznej stronie internetowej.

Główne daty studiów

Rozpoczęcie studiów (Rzeczywisty)

1 stycznia 2020

Zakończenie podstawowe (Rzeczywisty)

1 sierpnia 2024

Ukończenie studiów (Rzeczywisty)

4 listopada 2025

Daty rejestracji na studia

Pierwszy przesłany

18 lutego 2022

Pierwszy przesłany, który spełnia kryteria kontroli jakości

28 lutego 2022

Pierwszy wysłany (Rzeczywisty)

9 marca 2022

Aktualizacje rekordów badań

Ostatnia wysłana aktualizacja (Rzeczywisty)

20 stycznia 2026

Ostatnia przesłana aktualizacja, która spełniała kryteria kontroli jakości

29 grudnia 2025

Ostatnia weryfikacja

1 grudnia 2025

Więcej informacji

Terminy związane z tym badaniem

Dodatkowe istotne warunki MeSH

Inne numery identyfikacyjne badania

  • 2007P000646-B
  • R01CA207490 (Grant/umowa NIH USA)

Plan dla danych uczestnika indywidualnego (IPD)

Planujesz udostępniać dane poszczególnych uczestników (IPD)?

TAK

Opis planu IPD

Surowe dane pozbawione elementów umożliwiających identyfikację zostaną opublikowane na stronie OSF eksperymentu i będą również dostępne na żądanie dla PI.

Ramy czasowe udostępniania IPD

Materiały będą dostępne na żądanie

Kryteria dostępu do udostępniania IPD

zasadniczo nieograniczony

Typ informacji pomocniczych dotyczących udostępniania IPD

  • PROTOKÓŁ BADANIA
  • SOK ROŚLINNY
  • ICF

Informacje o lekach i urządzeniach, dokumenty badawcze

Bada produkt leczniczy regulowany przez amerykańską FDA

Nie

Bada produkt urządzenia regulowany przez amerykańską FDA

Nie

Te informacje zostały pobrane bezpośrednio ze strony internetowej clinicaltrials.gov bez żadnych zmian. Jeśli chcesz zmienić, usunąć lub zaktualizować dane swojego badania, skontaktuj się z register@clinicaltrials.gov. Gdy tylko zmiana zostanie wprowadzona na stronie clinicaltrials.gov, zostanie ona automatycznie zaktualizowana również na naszej stronie internetowej .

Subskrybuj