- ICH GCP
- Rejestr badań klinicznych w USA
- Badanie kliniczne NCT05272189
Projekt 3 Przykład: Tester współpracy człowiek-AI (HAICT) Exp. 7
Przegląd badań
Status
Szczegółowy opis
Ten tekst jest tekstem wstępnej rejestracji do eksperymentu HAICT 7, jak opisano w Open Science Framework. https://osf.io/hngu4/
UWAGA: To badanie jest reprezentatywne dla badań przeprowadzonych w ramach Projektu 3 tego grantu. Istnieje wiele eksperymentów w pakiecie eksperymentów reprezentowanym przez Projekt 3, ale nie można zarejestrować pakietu badań na CT.gov.
UWAGA: Ponieważ komentarz zaimkowy ma charakter doradczy, zostawimy go na razie.
Tester współpracy człowiek-AI (HAICT) Exp. 7 (lekko zredagowane z OSF)
Zbieranie danych. Czy zebrano już jakieś dane do tego badania? (Tak nie)
Tak
- Hipoteza. Jakie jest główne zadawane pytanie lub testowana hipoteza w tym badaniu?
Tło: W różnych eksperymentach poszukiwawczych, zarówno podstawowych, jak i klinicznych, dane były zgodne z sytuacją, w której zmienność sygnału (lub celu) jest większa niż zmienność szumu (dystraktory). Klasycznym tego znakiem jest funkcja zROC o nachyleniu < 1 - zwykle około 0,6. Nachylenie 1,0 wskazuje na zadanie 2AFC o równej wariancji. W przypadku zadania HAICT, które testowaliśmy, spodziewalibyśmy się równej wariancji, ale uważamy, że warto byłoby to sprawdzić, więc będziemy systematycznie różnicować rozpowszechnienie, które zmieni kryterium. To zmiata krzywą ROC, którą możemy zbadać.
Przetestujemy również sztuczną inteligencję Drugiego Czytelnika, aby ustalić, czy niskie rozpowszechnienie sprawia, że Drugi Czytelnik jest gorszy.
- (H1): Oczekujemy powtórzenia odkrycia, że kryteria dotyczące ludzi stają się bardziej konserwatywne wraz ze spadkiem rozpowszechnienia.
- (H2): Przewidujemy, że nachylenie wynikowego zROC wyniesie 1,0.
(H3): Stawiamy hipotezę, że niska częstość występowania sprawi, że sztuczna inteligencja drugiego czytelnika będzie mniej skuteczna, ponieważ pozytywna wartość predykcyjna jej komentarzy będzie niska.
Zmienna zależna. Opisz kluczowe zmienne zależne, określając sposób ich pomiaru.
Głównymi zmiennymi zależnymi będącymi przedmiotem zainteresowania są dokładność (oraz pochodne dokładności wykrywania sygnału, d' i c), czas reakcji i subiektywne oceny ankiety następującej po każdym bloku.
- Warunki. Do ilu i do jakich warunków zostaną przydzieleni uczestnicy?
Ta seria eksperymentów ma na celu zbadanie, w jaki sposób zmiana danych wejściowych z symulowanej sztucznej inteligencji może wpłynąć na decyzje podejmowane przez ludzkich obserwatorów w zadaniu z wymuszonym wyborem dwóch alternatywnych rozwiązań (takich jak decyzja o wezwaniu kobiety do dalszego badania mammograficznego). Opracowaliśmy paradygmat zwany Human-AI Collaboration Tester (HAICT), który pozwala na wydajne testowanie interakcji między człowiekiem a symulowaną sztuczną inteligencją.
Zadaniem obserwatorów w każdych warunkach jest wydanie decyzji 2AFC o tym, czy bodziec jest „zły”, czy „niezły”. Używając języka z grubsza naśladującego diagnozę medyczną, każdy bodziec jest określany jako „przypadek”. Obserwatorzy proszeni są o podjęcie decyzji 2AFC dotyczącej tablic kolorowych kształtów. Decyzja jest podejmowana na podstawie dominującego koloru obudowy. Liczba elementów każdego koloru jest losowana z jednego z dwóch rozkładów normalnych, jednego dla bodźców pozytywnych (złych), a drugiego dla bodźców negatywnych (niezłych).
Wyniki poprzednich eksperymentów HAICT (3 i 4) pokazały, że wydajność człowieka w stanie Drugiego Czytelnika znacznie spada przy niskim rozpowszechnieniu. Wydajność w stanie Drugiego Czytelnika była lepsza niż w punkcie wyjściowym, gdy częstość występowania złych przypadków wynosiła 50%, ale była znacznie gorsza niż w stanie wyjściowym, gdy częstość występowania wynosiła tylko 10%. W tym eksperymencie manipulujemy częstością występowania „złych” przypadków w warunkach drugiego czytelnika i linii bazowej. Zostaną przetestowane cztery różne wskaźniki rozpowszechnienia – 10%, 33%, 67% i 90%. Obserwatorzy ukończą 8 bloków (2 zasady AI x 4 współczynniki rozpowszechnienia), a kolejność bloków jest losowa.
Zasady AI do przetestowania:
- Linia bazowa — brak danych wejściowych AI. Obserwator samodzielnie klasyfikuje każdy przypadek jako „zły” lub „nie” zły.
Drugi czytelnik – Obserwator podejmuje wstępną decyzję w każdym przypadku. Sztuczna inteligencja po cichu klasyfikuje bodźce przy użyciu konserwatywnego kryterium (c = 0,5). Logika konserwatywnego kryterium polega na tym, że drugi czytnik jest używany do ograniczenia fałszywie pozytywnych odpowiedzi, dlatego ma on na celu zakwestionowanie pozytywnych odpowiedzi ludzkich, które mogą być marginalne. Jeśli obserwator i sztuczna inteligencja nie zgadzają się, sztuczna inteligencja informuje obserwatora-człowieka. Obserwator ma wtedy szansę albo zmienić swoją odpowiedź, albo poprzeć swoją pierwszą opinię.
Podobnie jak w Eksperymentach 1-5, AI d-prime jest ustalona na 2,2. Wiadomo, że informacje zwrotne zwiększają efekt rozpowszechnienia, więc informacje zwrotne będą przekazywane zarówno w praktyce, jak iw próbach testowych. Obserwatorzy wykonają 20 prób praktycznych i 200 prób testowych w każdym bloku. Natychmiast po zakończeniu każdego bloku obserwatorom zostanie wyświetlone podsumowanie ich wyników. Po blokach drugiego czytelnika zostaną również poproszeni o udzielenie odpowiedzi na trzy subiektywne pytania dotyczące użyteczności sztucznej inteligencji (więcej szczegółów w sekcji „Pliki”).
Ćwiczenie. Określ dokładnie, jakie analizy przeprowadzisz w celu zbadania głównego pytania/hipotezy.
Najpierw podsumowujemy liczbę trafień, prawdziwych negatywów, chybień i fałszywych alarmów w każdym bloku. Na tej podstawie możemy obliczyć dokładność, dodatnią wartość predykcyjną, czułość (d-prime) oraz kryterium dla każdego obserwatora w każdych różnych warunkach. Biorąc pod uwagę miary wydajności na 4 poziomach rozpowszechnienia, możemy oszacować krzywą ROC (pHit x pFA) i funkcję zROC (zHit x zFA). Przetestujemy hipotezę, że nachylenie zROC jest równe 1 (konsekwencja zadania 2AFC o równej wariancji).
Więcej analiz. Jakieś dodatkowe analizy?
Przyjrzymy się, czy subiektywne opinie obserwatorów na temat sztucznej inteligencji są skorelowane ze zmiennymi, takimi jak empiryczna d-prime lub dodatnia wartość predykcyjna.
Wielkość próbki. Ile obserwacji zostanie zebranych lub co zadecyduje o wielkości próby? Nie trzeba uzasadniać decyzji, ale należy dokładnie określić, w jaki sposób zostanie ustalona liczba.
Przetestujemy 12 obserwatorów. Jest to zgodne z rozmiarami próbek z poprzednich eksperymentów.
- Inny. Czy jest coś jeszcze, co chciałbyś wstępnie zarejestrować? (np. wykluczenia danych, zmienne zbierane do celów eksploracyjnych, planowane nietypowe analizy?)
Nie dotyczy
Typ studiów
Zapisy (Rzeczywisty)
Faza
- Nie dotyczy
Kontakty i lokalizacje
Lokalizacje studiów
-
-
Massachusetts
-
Boston, Massachusetts, Stany Zjednoczone, 02215
- Visual Attention Lab / Brigham and Women's Hospital
-
-
Kryteria uczestnictwa
Kryteria kwalifikacji
Wiek uprawniający do nauki
Akceptuje zdrowych ochotników
Opis
Kryteria przyjęcia:
- - Zapraszamy do zapisów on-line
Kryteria wyłączenia:
- Musi przejść test przesiewowy widzenia kolorów Ishihara
- Wizja 20/25 (z korekcją)
Plan studiów
Jak projektuje się badanie?
Szczegóły projektu
- Główny cel: Podstawowa nauka
- Przydział: Nie dotyczy
- Model interwencyjny: Zadanie dla jednej grupy
- Maskowanie: Brak (otwarta etykieta)
Broń i interwencje
Grupa uczestników / Arm |
Interwencja / Leczenie |
|---|---|
|
Eksperymentalny: Eksperyment
Wszyscy uczestnicy są testowani we wszystkich warunkach tego eksperymentu.
|
W tym eksperymencie w pewnych warunkach uczestnik podejmuje decyzję w obecności informacji o symulowanej decyzji sztucznej inteligencji.
Częstotliwość prezentowania celów waha się od 10% do 90%
Inne nazwy:
|
Co mierzy badanie?
Podstawowe miary wyniku
Miara wyniku |
Opis środka |
Ramy czasowe |
|---|---|---|
|
D'
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
|
D' (d-prime) to miara teorii wykrywania sygnałów określająca poziom wykonania zadania.
Jest obliczana poprzez obliczenie odsetka prawdziwie pozytywnych odpowiedzi = (próby prawdziwie pozytywne) / (próby prawdziwie pozytywne + próby fałszywie negatywne) = p(TP) oraz poprzez obliczenie odsetka fałszywie pozytywnych odpowiedzi = (próby fałszywie pozytywne) / (próby fałszywie pozytywne + próby prawdziwie negatywne) = p(FP).
Te wartości są przekształcane na 'wyniki z' (na przykład przy użyciu funkcji NORMSINV w Excelu do obliczenia odwrotności standardowego rozkładu normalnego).
D' jest zdefiniowane jako Z(TP)-Z(FP).
Jego zakres wynosi od 0 dla przypadków, w których żaden sygnał nie może być odróżniony od szumu, do ~4,0.
Górna granica nie jest zdefiniowana, ale wartość 4 oznaczałaby, że obserwator jest praktycznie doskonały w odróżnianiu sygnału od szumu.
|
Dane są zbierane podczas sesji trwającej około godziny.
|
|
Kryterium
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
|
Kryterium, podobnie jak D' (patrz wyżej), jest obliczane na podstawie z(TP) i z(FP).
Kryterium ( c ) = (z(TP)+z(FP))/-2.
Wartość zero oznacza, że obserwator ma takie samo prawdopodobieństwo udzielenia odpowiedzi pozytywnej (np. 'cel obecny'), jak negatywnej (nieobecny).
Wartości dodatnie oznaczają, że obserwator częściej mówi "nieobecny" (kryterium "konserwatywne").
Wartości ujemne oznaczają, że obserwator częściej mówi "obecny" (kryterium "liberalne").
Terminy liberalny i konserwatywny nie mają w tym przypadku konotacji politycznych.
Wartości kryterium prawie zawsze mieszczą się w przedziale od -2 do 2.
|
Dane są zbierane podczas sesji trwającej około godziny.
|
Miary wyników drugorzędnych
Miara wyniku |
Opis środka |
Ramy czasowe |
|---|---|---|
|
Czas Reakcji
Ramy czasowe: Dane są zbierane podczas sesji trwającej około godziny.
|
To jest miara tego, jak długo trwa udzielenie odpowiedzi.
|
Dane są zbierane podczas sesji trwającej około godziny.
|
Współpracownicy i badacze
Sponsor
Współpracownicy
Śledczy
- Główny śledczy: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Daty zapisu na studia
Główne daty studiów
Rozpoczęcie studiów (Rzeczywisty)
Zakończenie podstawowe (Rzeczywisty)
Ukończenie studiów (Rzeczywisty)
Daty rejestracji na studia
Pierwszy przesłany
Pierwszy przesłany, który spełnia kryteria kontroli jakości
Pierwszy wysłany (Rzeczywisty)
Aktualizacje rekordów badań
Ostatnia wysłana aktualizacja (Rzeczywisty)
Ostatnia przesłana aktualizacja, która spełniała kryteria kontroli jakości
Ostatnia weryfikacja
Więcej informacji
Terminy związane z tym badaniem
Słowa kluczowe
Dodatkowe istotne warunki MeSH
Inne numery identyfikacyjne badania
- 2007P000646-B
- R01CA207490 (Grant/umowa NIH USA)
Plan dla danych uczestnika indywidualnego (IPD)
Planujesz udostępniać dane poszczególnych uczestników (IPD)?
Opis planu IPD
Ramy czasowe udostępniania IPD
Kryteria dostępu do udostępniania IPD
Typ informacji pomocniczych dotyczących udostępniania IPD
- PROTOKÓŁ BADANIA
- SOK ROŚLINNY
- ICF
Informacje o lekach i urządzeniach, dokumenty badawcze
Bada produkt leczniczy regulowany przez amerykańską FDA
Bada produkt urządzenia regulowany przez amerykańską FDA
Te informacje zostały pobrane bezpośrednio ze strony internetowej clinicaltrials.gov bez żadnych zmian. Jeśli chcesz zmienić, usunąć lub zaktualizować dane swojego badania, skontaktuj się z register@clinicaltrials.gov. Gdy tylko zmiana zostanie wprowadzona na stronie clinicaltrials.gov, zostanie ona automatycznie zaktualizowana również na naszej stronie internetowej .