Tato stránka byla automaticky přeložena a přesnost překladu není zaručena. Podívejte se prosím na anglická verze pro zdrojový text.

Projekt 3 Příklad: Human-AI Collaboration Tester (HAICT) Exp. 7

29. prosince 2025 aktualizováno: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Studie je součástí „balíčku“ experimentů, které tvoří projekt tři grantu National Eye Institute. Projekt tři zahrnuje sérii experimentů, které zkoumají, jak může změna vstupu ze simulované umělé inteligence ovlivnit rozhodnutí učiněná lidskými pozorovateli ve dvou alternativních úkolech s nucenou volbou (jako je rozhodnutí odvolat ženu k dalšímu vyšetření v mamografii). Experiment HAICT 7, zde popsaný, zkoumá, jak měnící se prevalence ovlivňuje lidskou výkonnost, když se AI používá jako druhý čtenář.

Přehled studie

Detailní popis

Tento text je textem předběžné registrace pro experiment HAICT 7, jak je popsán v rámci Open Science Framework. https://osf.io/hngu4/

POZNÁMKA: Tato studie je reprezentativní pro studie provedené v rámci projektu 3 tohoto grantu. Ve svazku experimentů reprezentovaném Projektem 3 je několik experimentů, ale není možné zaregistrovat svazek studií na CT.gov.

POZNÁMKA: Vzhledem k tomu, že komentář se zájmenem je poradní, necháme ho prozatím.

Human-AI Collaboration Tester (HAICT) Exp. 7 (lehce upraveno z OSF)

  1. Sběr dat. Byla již pro tuto studii shromážděna nějaká data? (Ano ne)

    Ano

  2. Hypotéza. Jaká je hlavní otázka nebo hypotéza, která je v této studii testována?

Pozadí: V různých vyhledávacích experimentech, základních i klinických, byla data v souladu se situací, kdy je variabilita signálu (nebo cíle) větší než variabilita šumu (distraktory). Klasickým znakem toho je funkce zROC se sklonem < 1 - typicky kolem 0,6. Směrnice 1,0 je ukazatelem úlohy 2AFC se stejnou variací. U úlohy HAICT, kterou jsme testovali, bychom očekávali stejnou variabilitu, ale myslíme si, že by stálo za to ji zkontrolovat, takže budeme systematicky měnit prevalenci, což posune kritérium. To vynese ROC křivku, kterou můžeme prozkoumat.

Budeme také testovat faux-AI druhého čtenáře, abychom zjistili, zda nízká prevalence druhého čtenáře zhoršuje.

  • (H1): Očekáváme, že zopakujeme zjištění, že lidská kritéria se s klesající prevalencí stávají konzervativnějšími.
  • (H2): Předpovídáme, že sklon výsledného zROC bude 1,0.
  • (H3): Předpokládáme, že nízká prevalence způsobí, že AI druhého čtenáře bude méně efektivní, protože pozitivní prediktivní hodnota jejích komentářů bude nízká.

    1. Závislá proměnná. Popište klíčové závislé proměnné a specifikujte, jak budou měřeny.

      Hlavními závislými proměnnými, které nás zajímají, jsou přesnost (a derivace přesnosti detekce signálu, d' ac), reakční doba a subjektivní hodnocení v průzkumu po každém bloku.

    2. Podmínky. Kolik a za jakých podmínek bude účastníkům přiděleno?

Tato série experimentů zkoumá, jak může změna vstupu ze simulované umělé inteligence ovlivnit rozhodnutí učiněná lidskými pozorovateli ve dvou alternativních úkolech nucené volby (jako je rozhodnutí odvolat ženu k dalšímu vyšetření v mamografii). Vyvinuli jsme paradigma zvané Human-AI Collaboration Tester (HAICT), které umožňuje efektivní testování interakcí mezi člověkem a simulovanou AI.

Úkolem pozorovatelů za všech podmínek je rozhodnout 2AFC o tom, zda je podnět „špatný“ nebo „není špatný“. Abychom použili jazyk zhruba napodobující lékařskou diagnózu, každý podnět se nazývá „případ“. Pozorovatelé jsou požádáni, aby učinili rozhodnutí 2AFC o polích barevných tvarů. Rozhodnutí se provádí na základě převládající barvy pouzdra. Počet prvků každé barvy se získá z jednoho ze dvou normálních rozdělení, jedno pro pozitivní (špatné) podněty a druhé pro negativní (ne špatné) podněty.

Výsledky předchozích experimentů HAICT (3 a 4) ukázaly, že lidská výkonnost ve stavu druhého čtenáře významně klesá při nízké prevalenci. Výkon ve stavu druhého čtenáře byl lepší než základní stav, kdy prevalence špatných případů byla 50 %, ale byl výrazně horší než výchozí stav, kdy prevalence byla pouze 10 %. V tomto experimentu manipulujeme s prevalencí „špatných“ případů v podmínkách druhého čtenáře a základního stavu. Budou testovány čtyři různé míry prevalence – 10 %, 33 %, 67 % a 90 %. Pozorovatelé dokončí 8 bloků (2 pravidla AI x 4 míry prevalence) a pořadí bloků je náhodné.

Pravidla AI k testování:

  1. Základní linie – Žádný vstup AI. Observer klasifikuje každý případ jako „špatný“ nebo „ne“ špatný sám o sobě.
  2. Druhý čtenář – pozorovatel činí prvotní rozhodnutí o každém případu. AI tiše klasifikuje podněty pomocí konzervativního kritéria (c = 0,5). Logika konzervativního kritéria spočívá v tom, že druhý čtenář se používá k omezení falešně pozitivních odpovědí, a proto je zamýšlen ke zpochybňování pozitivních lidských odpovědí, které mohou být okrajové. Pokud se pozorovatel a AI neshodnou, pak AI informuje lidského pozorovatele. Pozorovatel pak dostane šanci buď změnit svou odpověď, nebo se řídit svým prvním názorem.

    Stejně jako v experimentech 1-5 je AI d-prime pevně nastaveno na 2,2. Je známo, že zpětná vazba zvyšuje efekt prevalence, takže zpětná vazba bude poskytnuta jak v praxi, tak v testech. Pozorovatelé absolvují 20 cvičných zkoušek a 200 zkušebních zkoušek v každém bloku. Ihned po dokončení každého bloku se pozorovatelům zobrazí souhrn jejich výkonu. Po blocích druhého čtenáře budou také požádáni, aby odpověděli na tři subjektivní otázky o užitečnosti AI (další podrobnosti viz „Soubory“).

  3. Analýzy. Uveďte přesně, které analýzy budete provádět, abyste prozkoumali hlavní otázku/hypotézu.

    Nejprve shrneme počet shod, skutečných záporů, chyb a falešných poplachů v každém bloku. Z toho můžeme vypočítat přesnost, pozitivní prediktivní hodnotu, citlivost (d-prime) a kritérium pro každého pozorovatele za každé z různých podmínek. Vzhledem k měření výkonnosti na 4 úrovních prevalence můžeme odhadnout křivku ROC (pHit x pFA) a funkci zROC (zHit x zFA). Budeme testovat hypotézu, že směrnice zROC je rovna 1 (důsledek úlohy 2AFC se stejnou variací).

  4. Více analýz. Nějaké sekundární analýzy?

    Podíváme se, zda subjektivní názory pozorovatelů na AI korelují s proměnnými, jako je empirický d-prime nebo pozitivní prediktivní hodnota.

  5. Velikost vzorku. Kolik pozorování bude shromážděno nebo co určí velikost vzorku? Rozhodnutí není třeba zdůvodňovat, ale upřesněte, jak přesně bude číslo určeno.

    Vyzkoušíme 12 pozorovatelů. To je v souladu s velikostí vzorků z předchozích experimentů.

  6. Jiný. Je ještě něco, co byste chtěli předběžně zaregistrovat? (např. vyloučení dat, proměnné shromážděné pro účely průzkumu, plánované neobvyklé analýzy?)

N/A

Typ studie

Intervenční

Zápis (Aktuální)

12

Fáze

  • Nelze použít

Kontakty a umístění

Tato část poskytuje kontaktní údaje pro ty, kteří studii provádějí, a informace o tom, kde se tato studie provádí.

Studijní místa

    • Massachusetts
      • Boston, Massachusetts, Spojené státy, 02215
        • Visual Attention Lab / Brigham and Women's Hospital

Kritéria účasti

Výzkumníci hledají lidi, kteří odpovídají určitému popisu, kterému se říká kritéria způsobilosti. Některé příklady těchto kritérií jsou celkový zdravotní stav osoby nebo předchozí léčba.

Kritéria způsobilosti

Věk způsobilý ke studiu

18 let a starší (Dospělý, Starší dospělý)

Přijímá zdravé dobrovolníky

Ano

Popis

Kritéria pro zařazení:

  • - Všichni jsou vítáni k online registraci

Kritéria vyloučení:

  • Musí projít testem barevného vidění Ishihara
  • 20/25 vidění (s korekcí)

Studijní plán

Tato část poskytuje podrobnosti o studijním plánu, včetně toho, jak je studie navržena a co studie měří.

Jak je studie koncipována?

Detaily designu

  • Primární účel: Základní věda
  • Přidělení: N/A
  • Intervenční model: Přiřazení jedné skupiny
  • Maskování: Žádné (otevřený štítek)

Zbraně a zásahy

Skupina účastníků / Arm
Intervence / Léčba
Experimentální: Experiment
Všichni účastníci jsou testováni ve všech podmínkách tohoto experimentu.
V tomto experimentu se za určitých podmínek účastník rozhoduje za přítomnosti informací o simulovaném rozhodnutí umělé inteligence.
Frekvence, s jakou jsou cíle prezentovány, se pohybuje od 10 % do 90 %
Ostatní jména:
  • Základní sazba

Co je měření studie?

Primární výstupní opatření

Měření výsledku
Popis opatření
Časové okno
D'
Časové okno: Data jsou shromažďována během sezení trvajícího přibližně hodinu.
D' (d-prime) je míra teorie detekce signálu, která vyjadřuje úroveň výkonu při úloze. Vypočítá se výpočtem podílu pravdivě pozitivních odpovědí = (pravdivě pozitivní pokusy) / (pravdivě pozitivní + falešně negativní pokusy) = p(TP) a výpočtem podílu falešně pozitivních odpovědí = (falešně pozitivní pokusy) / (falešně pozitivní + pravdivě negativní pokusy) = p(FP). Tyto hodnoty se transformují na 'z-skóre' (například pomocí funkce NORMSINV v Excelu pro výpočet inverze standardního normálního rozdělení). D' je definováno jako Z(TP)-Z(FP). Jeho rozsah je od 0 pro případy, kdy nelze signál odlišit od šumu, až přibližně do 4,0. Horní hranice není definována, ale hodnota 4 by znamenala, že pozorovatel je v podstatě dokonalý v rozlišování signálu od šumu.
Data jsou shromažďována během sezení trvajícího přibližně hodinu.
Kritérium
Časové okno: Data se shromažďují během sezení trvajícího přibližně hodinu.
Kritérium, podobně jako D' (viz výše), se počítá z z(TP) a z(FP). Kritérium ( c ) = (z(TP)+z(FP))/-2. Hodnota nula znamená, že pozorovatel je stejně pravděpodobný, že udělá pozitivní (např. 'cíl přítomen') odpověď jako negativní (nepřítomen) odpověď. Pozitivní hodnoty znamenají, že pozorovatel je pravděpodobnější, že řekne "nepřítomen" ("konzervativní" kritérium). Negativní hodnoty znamenají, že pozorovatel je pravděpodobnější, že řekne "přítomen" ("liberální" kritérium). Liberální a konzervativní v tomto případě nemají politické konotace. Hodnoty kritéria téměř vždy spadají mezi -2 a 2.
Data se shromažďují během sezení trvajícího přibližně hodinu.

Sekundární výstupní opatření

Měření výsledku
Popis opatření
Časové okno
Reakční Doba
Časové okno: Data jsou shromažďována během sezení trvajícího přibližně hodinu.
Toto je míra toho, jak dlouho trvá vytvoření odpovědi.
Data jsou shromažďována během sezení trvajícího přibližně hodinu.

Spolupracovníci a vyšetřovatelé

Zde najdete lidi a organizace zapojené do této studie.

Vyšetřovatelé

  • Vrchní vyšetřovatel: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Termíny studijních záznamů

Tato data sledují průběh záznamů studie a předkládání souhrnných výsledků na ClinicalTrials.gov. Záznamy ze studií a hlášené výsledky jsou před zveřejněním na veřejné webové stránce přezkoumány Národní lékařskou knihovnou (NLM), aby se ujistily, že splňují specifické standardy kontroly kvality.

Hlavní termíny studia

Začátek studia (Aktuální)

1. ledna 2020

Primární dokončení (Aktuální)

1. srpna 2024

Dokončení studie (Aktuální)

4. listopadu 2025

Termíny zápisu do studia

První předloženo

18. února 2022

První předloženo, které splnilo kritéria kontroly kvality

28. února 2022

První zveřejněno (Aktuální)

9. března 2022

Aktualizace studijních záznamů

Poslední zveřejněná aktualizace (Aktuální)

20. ledna 2026

Odeslaná poslední aktualizace, která splnila kritéria kontroly kvality

29. prosince 2025

Naposledy ověřeno

1. prosince 2025

Více informací

Termíny související s touto studií

Další relevantní podmínky MeSH

Další identifikační čísla studie

  • 2007P000646-B
  • R01CA207490 (Grant/smlouva NIH USA)

Plán pro data jednotlivých účastníků (IPD)

Plánujete sdílet data jednotlivých účastníků (IPD)?

ANO

Popis plánu IPD

Neidentifikovaná nezpracovaná data budou zveřejněna na stránce OSF experimentu a budou také k dispozici na vyžádání PI.

Časový rámec sdílení IPD

Materiály budou k dispozici na vyžádání

Kritéria přístupu pro sdílení IPD

v podstatě neomezená

Typ podpůrných informací pro sdílení IPD

  • PROTOKOL STUDY
  • MÍZA
  • ICF

Informace o lécích a zařízeních, studijní dokumenty

Studuje lékový produkt regulovaný americkým FDA

Ne

Studuje produkt zařízení regulovaný americkým úřadem FDA

Ne

Tyto informace byly beze změn načteny přímo z webu clinicaltrials.gov. Máte-li jakékoli požadavky na změnu, odstranění nebo aktualizaci podrobností studie, kontaktujte prosím register@clinicaltrials.gov. Jakmile bude změna implementována na clinicaltrials.gov, bude automaticky aktualizována i na našem webu .

Předplatit