Tämä sivu käännettiin automaattisesti, eikä käännösten tarkkuutta voida taata. Katso englanninkielinen versio lähdetekstiä varten.

Projekti 3 Esimerkki: Human-AI Collaboration Tester (HAICT) Exp. 7

tiistai 25. heinäkuuta 2023 päivittänyt: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Tutkimus on osa "nippua" kokeita, jotka muodostavat National Eye Instituten apurahan hankkeen kolme. Projekti Three sisältää sarjan kokeita, joissa tutkitaan, kuinka simuloidun tekoälyn syötteen muuttaminen voi vaikuttaa ihmistarkkailijoiden päätöksiin kahden vaihtoehdon pakkovalintatehtävässä (kuten päätös kutsua nainen takaisin mammografiatutkimukseen). HAICT 7, tässä kuvattu koe, tutkii, kuinka muuttuva levinneisyys vaikuttaa ihmisen suorituskykyyn, kun tekoälyä käytetään toisena lukijana.

Tutkimuksen yleiskatsaus

Tila

Rekrytointi

Ehdot

Interventio / Hoito

Yksityiskohtainen kuvaus

Tämä teksti on HAICT 7 -kokeen ennakkorekisteröinnin teksti Open Science Frameworkissa kuvatulla tavalla. https://osf.io/hngu4/

HUOMAA: Tämä tutkimus edustaa tämän apurahan hankkeessa 3 tehtyjä tutkimuksia. Projektin 3 edustamassa koepaketissa on useita kokeita, mutta tutkimusnippua ei ole mahdollista rekisteröidä CT.gov-sivustolle.

HUOMAA: Koska pronominikommentti on neuvoa-antava, jätämme sen toistaiseksi.

Human-AI Collaboration Tester (HAICT) Exp. 7 (kevyesti muokattu OSF:stä)

Tiedonkeruu. Onko tätä tutkimusta varten jo kerätty dataa? (Kyllä ei)
Joo
Hypoteesi. Mikä on tärkein kysymys tai hypoteesi, jota testataan tässä tutkimuksessa?

Tausta: Useissa hakukokeissa, sekä perus- että kliinisissä, tiedot ovat olleet yhdenmukaisia tilanteen kanssa, jossa signaalin (tai kohteen) vaihtelu on suurempi kuin kohinan (häiriötekijöiden) vaihtelu. Klassinen merkki tästä on zROC-funktio, jonka kaltevuus on < 1 - tyypillisesti noin 0,6. Kulmakerroin 1,0 osoittaa yhtäläisen varianssin 2AFC-tehtävän. Testaamallemme HAICT-tehtävälle odotamme samanlaista varianssia, mutta mielestämme se kannattaa tarkistaa, jotta vaihtelemme systemaattisesti levinneisyyttä, mikä muuttaa kriteeriä. Se pyyhkäisee pois ROC-käyrän, jonka voimme tutkia.

Testaamme myös Second Readerin faux-AI:tä määrittääksemme, huonontaako alhainen esiintyvyys Second Readerin toimintaa.

(H1): Odotamme toistavamme havainnon, jonka mukaan ihmisten kriteerit muuttuvat konservatiivisemmiksi levinneisyyden pienentyessä.
(H2): Ennustamme, että tuloksena olevan zROC:n kaltevuus on 1,0.
(H3): Oletamme, että alhainen esiintyvyys tekee Second Reader AI:n tehottomaksi, koska sen kommenttien positiivinen ennustearvo on alhainen.
1. Riippuva muuttuja. Kuvaile avaimesta riippuvat muuttujat ja määritä, miten ne mitataan.
  Tärkeimmät kiinnostavat riippuvat muuttujat ovat tarkkuus (ja tarkkuuden signaalin havaitsemisen derivaatat, d' ja c), reaktioaika ja subjektiiviset arvosanat jokaista lohkoa seuraavan kyselyn yhteydessä.
2. ehdot. Kuinka moneen ja mihin ehtoihin osallistujat määrätään?

Tämä koesarja tutkii, kuinka simuloidun tekoälyn syötteen muuttaminen voi vaikuttaa ihmistarkkailijoiden päätöksiin kahden vaihtoehdon pakkovalintatehtävässä (kuten päätös kutsua nainen takaisin mammografian lisätutkimuksiin). Olemme kehittäneet paradigman nimeltä Human-AI Collaboration Tester (HAICT), joka mahdollistaa tehokkaan ihmisen ja simuloidun tekoälyn välisten vuorovaikutusten testaamisen.

Tarkkailijoiden tehtävänä kaikissa olosuhteissa on antaa 2AFC-päätös siitä, onko ärsyke "huono" vai "ei paha". Käyttääksemme kieltä, joka matkii karkeasti lääketieteellistä diagnoosia, jokaista ärsykettä kutsutaan "tapaukseksi". Tarkkailijoita pyydetään tekemään 2AFC-päätös värillisten muotojen ryhmistä. Päätös tehdään tapauksen vallitsevan värin perusteella. Kunkin värin elementtien lukumäärä on otettu yhdestä kahdesta normaalijakaumasta, toinen positiivisille (huoneille) ärsykkeille ja toinen negatiivisille (ei huonoille) ärsykkeille.

Aiempien HAICT-kokeiden tulokset (3 ja 4) osoittivat, että ihmisen suorituskyky toisen lukijan tilassa laskee merkittävästi alhaisella esiintyvyydestä. Suorituskyky toisen lukijan tilassa oli parempi kuin perustaso, kun huonojen tapausten esiintyvyys oli 50 %, mutta oli merkittävästi huonompi kuin lähtötaso, kun esiintyvyys oli vain 10 %. Tässä kokeessa manipuloimme "huonojen" tapausten esiintyvyyttä toisen lukijan ja perustilan olosuhteissa. Testataan neljää eri esiintyvyystasoa - 10 %, 33 %, 67 % ja 90 %. Tarkkailijat suorittavat 8 lohkoa (2 tekoälysääntöä x 4 esiintyvyysastetta), ja lohkojärjestys on satunnainen.

Testattavat tekoälysäännöt:

Perustaso - Ei AI-tuloa. Observer luokittelee jokaisen tapauksen "huonoksi" tai "ei" huonoksi.
Toinen lukija - Tarkkailija tekee alustavan päätöksen jokaisesta tapauksesta. Tekoäly luokittelee ärsykkeet hiljaa käyttämällä konservatiivista kriteeriä (c = 0,5). Konservatiivisen kriteerin logiikka on, että toista lukijaa käytetään vähentämään vääriä positiivisia vastauksia, joten se on tarkoitettu kyseenalaistamaan positiiviset ihmisen vastaukset, jotka saattavat olla marginaalisia. Jos tarkkailija ja tekoäly ovat eri mieltä, tekoäly ilmoittaa ihmistarkkailijalle. Tarkkailijalle annetaan sitten mahdollisuus joko muuttaa vastaustaan tai hyväksyä ensimmäinen mielipide.
Kuten kokeissa 1-5, AI d-prime on kiinteä 2.2. Palautteen tiedetään lisäävän levinneisyysvaikutusta, joten palautetta annetaan sekä harjoituksissa että kokeissa. Tarkkailijat suorittavat 20 harjoituskoetta ja 200 testikoetta kussakin lohkossa. Välittömästi kunkin lohkon päätyttyä tarkkailijoille näytetään yhteenveto suorituksestaan. Toisen lukijan lohkojen jälkeen heitä pyydetään myös vastaamaan kolmeen subjektiiviseen kysymykseen tekoälyn hyödyllisyydestä (katso lisätietoja "Tiedostot").
Analyysit. Määritä tarkalleen, mitkä analyysit aiot suorittaa pääkysymyksen/hypoteesin tutkimiseksi.
Ensin teemme yhteenvedon osumien, todellisten negatiivisten, poikkeamien ja väärien hälytysten lukumäärästä kussakin lohkossa. Tästä voimme laskea tarkkuuden, positiivisen ennustusarvon, herkkyyden (d-prime) ja kriteerin kullekin tarkkailijalle kussakin eri olosuhteissa. Kun otetaan huomioon suorituskykymittaukset neljällä esiintyvyystasolla, voimme arvioida ROC-käyrän (pHit x pFA) ja zROC-funktion (zHit x zFA). Testataan hypoteesia, että zROC:n kaltevuus on yhtä suuri kuin 1 (yhtenäisen varianssin 2AFC-tehtävän seuraus).
Lisää analyyseja. Onko toissijaisia analyyseja?
Katsomme, korreloivatko tarkkailijoiden subjektiiviset mielipiteet tekoälystä muuttujien, kuten empiirisen d-alkuluvun tai positiivisen ennustusarvon, kanssa.
Otoskoko. Kuinka monta havaintoa kerätään tai mikä määrää otoskoon? Päätöstä ei tarvitse perustella, mutta kerro tarkasti, kuinka määrä määritetään.
Testaamme 12 tarkkailijaa. Tämä on yhdenmukainen aikaisempien kokeiden otoskokojen kanssa.
Muut. Onko jotain muuta, johon haluaisit ennakkoilmoittautua? (esim. tietojen poissulkeminen, tutkimustarkoituksiin kerätyt muuttujat, suunniteltu epätavallinen analyysi?)

Ei käytössä

Opintotyyppi

Interventio

Ilmoittautuminen (Arvioitu)

Vaihe

Ei sovellettavissa

Yhteystiedot ja paikat

Tässä osiossa on tutkimuksen suorittajien yhteystiedot ja tiedot siitä, missä tämä tutkimus suoritetaan.

Opiskeluyhteys

Nimi: Jeremy M Wolfe, PhD
Puhelinnumero: 6178511166
Sähköposti: jwolfe@bwh.harvard.edu

Opiskelupaikat

Yhdysvallat
- Massachusetts
  - Boston, Massachusetts, Yhdysvallat, 02215
    - Rekrytointi
    - Visual Attention Lab / Brigham and Women's Hospital
    - Ottaa yhteyttä:
      
      Jeremy M Wolfe
      
      Puhelinnumero: 617-851-1166
      
      Sähköposti: jwolfe@bwh.harvard.edu

Osallistumiskriteerit

Tutkijat etsivät ihmisiä, jotka sopivat tiettyyn kuvaukseen, jota kutsutaan kelpoisuuskriteereiksi. Joitakin esimerkkejä näistä kriteereistä ovat henkilön yleinen terveydentila tai aiemmat hoidot.

Kelpoisuusvaatimukset

Opintokelpoiset iät

18 vuotta ja vanhemmat (Aikuinen, Vanhempi Aikuinen)

Hyväksyy terveitä vapaaehtoisia

Joo

Kuvaus

Sisällyttämiskriteerit:

- Kaikki tervetuloa ilmoittautumaan verkossa

Poissulkemiskriteerit:

On läpäistävä Ishihara-värinäköseulontatesti
20/25 näkö (korjauksella)

Opintosuunnitelma

Tässä osiossa on tietoja tutkimussuunnitelmasta, mukaan lukien kuinka tutkimus on suunniteltu ja mitä tutkimuksella mitataan.

Miten tutkimus on suunniteltu?

Suunnittelun yksityiskohdat

Ensisijainen käyttötarkoitus: Perustiede
Jako: Ei käytössä
Inventiomalli: Yksittäinen ryhmätehtävä
Naamiointi: Ei mitään (avoin tarra)

Aseiden lukumäärä

Aseet ja interventiot

Osallistujaryhmä / Arm	Interventio / Hoito
Kokeellinen: Koe Kaikki osallistujat testataan kaikissa tämän kokeen olosuhteissa.	Käyttäytyminen: Simuloitu toisen lukijan AI Tässä kokeessa osallistuja tekee joissakin olosuhteissa päätöksensä simuloidun tekoälypäätöksen tiedon läsnä ollessa. Käyttäytyminen: Tavoitteen levinneisyys Tavoitteiden esittämistiheys vaihtelee 10 prosentista 90 prosenttiin Muut nimet: Peruskorko

Mitä tutkimuksessa mitataan?

Ensisijaiset tulostoimenpiteet

Tulosmittaus	Toimenpiteen kuvaus	Aikaikkuna
D' Aikaikkuna: Jopa viikko	D' (d-prime) on signaalin havaitsemisen teorian mitta, joka mittaa tehtävän suoritustasoa.	Jopa viikko
Kriteeri Aikaikkuna: Jopa viikko	Kriteeri on signaalintunnistusteorian mitta tarkkailijoiden päätösten harhalle ("liberaali" tai "konservatiivinen")	Jopa viikko

Toissijaiset tulostoimenpiteet

Tulosmittaus	Toimenpiteen kuvaus	Aikaikkuna
Reaktioaika Aikaikkuna: Jopa viikko	Tämä mittaa, kuinka kauan vastauksen tekeminen kestää.	Jopa viikko

Yhteistyökumppanit ja tutkijat

Täältä löydät tähän tutkimukseen osallistuvat ihmiset ja organisaatiot.

Sponsori

Brigham and Women's Hospital

Tutkijat

Päätutkija: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Opintojen ennätyspäivät

Nämä päivämäärät seuraavat ClinicalTrials.gov-sivustolle lähetettyjen tutkimustietueiden ja yhteenvetojen edistymistä. National Library of Medicine (NLM) tarkistaa tutkimustiedot ja raportoidut tulokset varmistaakseen, että ne täyttävät tietyt laadunvalvontastandardit, ennen kuin ne julkaistaan julkisella verkkosivustolla.

Opi tärkeimmät päivämäärät

Opiskelun aloitus (Todellinen)

Keskiviikko 1. tammikuuta 2020

Ensisijainen valmistuminen (Arvioitu)

Torstai 1. elokuuta 2024

Opintojen valmistuminen (Arvioitu)

Keskiviikko 1. tammikuuta 2025

Opintoihin ilmoittautumispäivät

Ensimmäinen lähetetty

Perjantai 18. helmikuuta 2022

Ensimmäinen toimitettu, joka täytti QC-kriteerit

Maanantai 28. helmikuuta 2022

Ensimmäinen Lähetetty (Todellinen)

Keskiviikko 9. maaliskuuta 2022

Tutkimustietojen päivitykset

Viimeisin päivitys julkaistu (Todellinen)

Torstai 27. heinäkuuta 2023

Viimeisin lähetetty päivitys, joka täytti QC-kriteerit

Tiistai 25. heinäkuuta 2023

Viimeksi vahvistettu

Lauantai 1. heinäkuuta 2023

Lisää tietoa

Tähän tutkimukseen liittyvät termit

Avainsanat

Muita asiaankuuluvia MeSH-ehtoja

Muut tutkimustunnusnumerot

2007P000646-B

Yksittäisten osallistujien tietojen suunnitelma (IPD)

Aiotko jakaa yksittäisten osallistujien tietoja (IPD)?

JOO

IPD-suunnitelman kuvaus

Tunnistamattomat raakatiedot julkaistaan kokeen OSF-sivulla, ja ne ovat pyynnöstä myös PI:n saatavilla.

IPD-jaon aikakehys

Materiaalit ovat saatavilla pyydettäessä

IPD-jaon käyttöoikeuskriteerit

olennaisesti rajoittamaton

IPD-jakamista tukeva tietotyyppi

STUDY_PROTOCOL
MAHLA
ICF

Lääke- ja laitetiedot, tutkimusasiakirjat

Tutkii yhdysvaltalaista FDA sääntelemää lääkevalmistetta

Tutkii yhdysvaltalaista FDA sääntelemää laitetuotetta

Nämä tiedot haettiin suoraan verkkosivustolta clinicaltrials.gov ilman muutoksia. Jos sinulla on pyyntöjä muuttaa, poistaa tai päivittää tutkimustietojasi, ota yhteyttä register@clinicaltrials.gov. Heti kun muutos on otettu käyttöön osoitteessa clinicaltrials.gov, se päivitetään automaattisesti myös verkkosivustollemme .

Projekti 3 Esimerkki: Human-AI Collaboration Tester (HAICT) Exp. 7

Tutkimuksen yleiskatsaus

Tila

Ehdot

Interventio / Hoito

Yksityiskohtainen kuvaus

Opintotyyppi

Ilmoittautuminen (Arvioitu)

Vaihe

Yhteystiedot ja paikat

Opiskeluyhteys

Opiskelupaikat

Osallistumiskriteerit

Kelpoisuusvaatimukset

Opintokelpoiset iät

Hyväksyy terveitä vapaaehtoisia

Kuvaus

Opintosuunnitelma

Miten tutkimus on suunniteltu?

Suunnittelun yksityiskohdat

Aseiden lukumäärä

Aseet ja interventiot

Osallistujaryhmä / Arm

Interventio / Hoito

Mitä tutkimuksessa mitataan?

Ensisijaiset tulostoimenpiteet

Tulosmittaus

Toimenpiteen kuvaus

Aikaikkuna

Toissijaiset tulostoimenpiteet

Tulosmittaus

Toimenpiteen kuvaus

Aikaikkuna

Yhteistyökumppanit ja tutkijat

Sponsori

Tutkijat

Opintojen ennätyspäivät

Opi tärkeimmät päivämäärät

Opiskelun aloitus (Todellinen)

Ensisijainen valmistuminen (Arvioitu)

Opintojen valmistuminen (Arvioitu)

Opintoihin ilmoittautumispäivät

Ensimmäinen lähetetty

Ensimmäinen toimitettu, joka täytti QC-kriteerit

Ensimmäinen Lähetetty (Todellinen)

Tutkimustietojen päivitykset

Viimeisin päivitys julkaistu (Todellinen)

Viimeisin lähetetty päivitys, joka täytti QC-kriteerit

Viimeksi vahvistettu

Lisää tietoa

Tähän tutkimukseen liittyvät termit

Avainsanat

Muita asiaankuuluvia MeSH-ehtoja

Muut tutkimustunnusnumerot

Yksittäisten osallistujien tietojen suunnitelma (IPD)

Aiotko jakaa yksittäisten osallistujien tietoja (IPD)?

IPD-suunnitelman kuvaus

IPD-jaon aikakehys

IPD-jaon käyttöoikeuskriteerit

IPD-jakamista tukeva tietotyyppi

Lääke- ja laitetiedot, tutkimusasiakirjat

Tutkii yhdysvaltalaista FDA sääntelemää lääkevalmistetta

Tutkii yhdysvaltalaista FDA sääntelemää laitetuotetta

Hae vastaavia kokeiluja

Sponsorit ja yhteistyökumppanit

Sairaudet

Huumeiden interventiot

CROs by country

CROs in Uzbekistan

Ehdot

Harvinaiset sairaudet

Huumeiden interventiot

Ravintolisät

Sponsori / yhteistyökumppanit

Sijainnit