Tämä sivu käännettiin automaattisesti, eikä käännösten tarkkuutta voida taata. Katso englanninkielinen versio lähdetekstiä varten.

Projekti 3 Esimerkki: Human-AI Collaboration Tester (HAICT) Exp. 7

tiistai 25. heinäkuuta 2023 päivittänyt: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Tutkimus on osa "nippua" kokeita, jotka muodostavat National Eye Instituten apurahan hankkeen kolme. Projekti Three sisältää sarjan kokeita, joissa tutkitaan, kuinka simuloidun tekoälyn syötteen muuttaminen voi vaikuttaa ihmistarkkailijoiden päätöksiin kahden vaihtoehdon pakkovalintatehtävässä (kuten päätös kutsua nainen takaisin mammografiatutkimukseen). HAICT 7, tässä kuvattu koe, tutkii, kuinka muuttuva levinneisyys vaikuttaa ihmisen suorituskykyyn, kun tekoälyä käytetään toisena lukijana.

Tutkimuksen yleiskatsaus

Yksityiskohtainen kuvaus

Tämä teksti on HAICT 7 -kokeen ennakkorekisteröinnin teksti Open Science Frameworkissa kuvatulla tavalla. https://osf.io/hngu4/

HUOMAA: Tämä tutkimus edustaa tämän apurahan hankkeessa 3 tehtyjä tutkimuksia. Projektin 3 edustamassa koepaketissa on useita kokeita, mutta tutkimusnippua ei ole mahdollista rekisteröidä CT.gov-sivustolle.

HUOMAA: Koska pronominikommentti on neuvoa-antava, jätämme sen toistaiseksi.

Human-AI Collaboration Tester (HAICT) Exp. 7 (kevyesti muokattu OSF:stä)

  1. Tiedonkeruu. Onko tätä tutkimusta varten jo kerätty dataa? (Kyllä ei)

    Joo

  2. Hypoteesi. Mikä on tärkein kysymys tai hypoteesi, jota testataan tässä tutkimuksessa?

Tausta: Useissa hakukokeissa, sekä perus- että kliinisissä, tiedot ovat olleet yhdenmukaisia ​​tilanteen kanssa, jossa signaalin (tai kohteen) vaihtelu on suurempi kuin kohinan (häiriötekijöiden) vaihtelu. Klassinen merkki tästä on zROC-funktio, jonka kaltevuus on < 1 - tyypillisesti noin 0,6. Kulmakerroin 1,0 osoittaa yhtäläisen varianssin 2AFC-tehtävän. Testaamallemme HAICT-tehtävälle odotamme samanlaista varianssia, mutta mielestämme se kannattaa tarkistaa, jotta vaihtelemme systemaattisesti levinneisyyttä, mikä muuttaa kriteeriä. Se pyyhkäisee pois ROC-käyrän, jonka voimme tutkia.

Testaamme myös Second Readerin faux-AI:tä määrittääksemme, huonontaako alhainen esiintyvyys Second Readerin toimintaa.

  • (H1): Odotamme toistavamme havainnon, jonka mukaan ihmisten kriteerit muuttuvat konservatiivisemmiksi levinneisyyden pienentyessä.
  • (H2): Ennustamme, että tuloksena olevan zROC:n kaltevuus on 1,0.
  • (H3): Oletamme, että alhainen esiintyvyys tekee Second Reader AI:n tehottomaksi, koska sen kommenttien positiivinen ennustearvo on alhainen.

    1. Riippuva muuttuja. Kuvaile avaimesta riippuvat muuttujat ja määritä, miten ne mitataan.

      Tärkeimmät kiinnostavat riippuvat muuttujat ovat tarkkuus (ja tarkkuuden signaalin havaitsemisen derivaatat, d' ja c), reaktioaika ja subjektiiviset arvosanat jokaista lohkoa seuraavan kyselyn yhteydessä.

    2. ehdot. Kuinka moneen ja mihin ehtoihin osallistujat määrätään?

Tämä koesarja tutkii, kuinka simuloidun tekoälyn syötteen muuttaminen voi vaikuttaa ihmistarkkailijoiden päätöksiin kahden vaihtoehdon pakkovalintatehtävässä (kuten päätös kutsua nainen takaisin mammografian lisätutkimuksiin). Olemme kehittäneet paradigman nimeltä Human-AI Collaboration Tester (HAICT), joka mahdollistaa tehokkaan ihmisen ja simuloidun tekoälyn välisten vuorovaikutusten testaamisen.

Tarkkailijoiden tehtävänä kaikissa olosuhteissa on antaa 2AFC-päätös siitä, onko ärsyke "huono" vai "ei paha". Käyttääksemme kieltä, joka matkii karkeasti lääketieteellistä diagnoosia, jokaista ärsykettä kutsutaan "tapaukseksi". Tarkkailijoita pyydetään tekemään 2AFC-päätös värillisten muotojen ryhmistä. Päätös tehdään tapauksen vallitsevan värin perusteella. Kunkin värin elementtien lukumäärä on otettu yhdestä kahdesta normaalijakaumasta, toinen positiivisille (huoneille) ärsykkeille ja toinen negatiivisille (ei huonoille) ärsykkeille.

Aiempien HAICT-kokeiden tulokset (3 ja 4) osoittivat, että ihmisen suorituskyky toisen lukijan tilassa laskee merkittävästi alhaisella esiintyvyydestä. Suorituskyky toisen lukijan tilassa oli parempi kuin perustaso, kun huonojen tapausten esiintyvyys oli 50 %, mutta oli merkittävästi huonompi kuin lähtötaso, kun esiintyvyys oli vain 10 %. Tässä kokeessa manipuloimme "huonojen" tapausten esiintyvyyttä toisen lukijan ja perustilan olosuhteissa. Testataan neljää eri esiintyvyystasoa - 10 %, 33 %, 67 % ja 90 %. Tarkkailijat suorittavat 8 lohkoa (2 tekoälysääntöä x 4 esiintyvyysastetta), ja lohkojärjestys on satunnainen.

Testattavat tekoälysäännöt:

  1. Perustaso - Ei AI-tuloa. Observer luokittelee jokaisen tapauksen "huonoksi" tai "ei" huonoksi.
  2. Toinen lukija - Tarkkailija tekee alustavan päätöksen jokaisesta tapauksesta. Tekoäly luokittelee ärsykkeet hiljaa käyttämällä konservatiivista kriteeriä (c = 0,5). Konservatiivisen kriteerin logiikka on, että toista lukijaa käytetään vähentämään vääriä positiivisia vastauksia, joten se on tarkoitettu kyseenalaistamaan positiiviset ihmisen vastaukset, jotka saattavat olla marginaalisia. Jos tarkkailija ja tekoäly ovat eri mieltä, tekoäly ilmoittaa ihmistarkkailijalle. Tarkkailijalle annetaan sitten mahdollisuus joko muuttaa vastaustaan ​​tai hyväksyä ensimmäinen mielipide.

    Kuten kokeissa 1-5, AI d-prime on kiinteä 2.2. Palautteen tiedetään lisäävän levinneisyysvaikutusta, joten palautetta annetaan sekä harjoituksissa että kokeissa. Tarkkailijat suorittavat 20 harjoituskoetta ja 200 testikoetta kussakin lohkossa. Välittömästi kunkin lohkon päätyttyä tarkkailijoille näytetään yhteenveto suorituksestaan. Toisen lukijan lohkojen jälkeen heitä pyydetään myös vastaamaan kolmeen subjektiiviseen kysymykseen tekoälyn hyödyllisyydestä (katso lisätietoja "Tiedostot").

  3. Analyysit. Määritä tarkalleen, mitkä analyysit aiot suorittaa pääkysymyksen/hypoteesin tutkimiseksi.

    Ensin teemme yhteenvedon osumien, todellisten negatiivisten, poikkeamien ja väärien hälytysten lukumäärästä kussakin lohkossa. Tästä voimme laskea tarkkuuden, positiivisen ennustusarvon, herkkyyden (d-prime) ja kriteerin kullekin tarkkailijalle kussakin eri olosuhteissa. Kun otetaan huomioon suorituskykymittaukset neljällä esiintyvyystasolla, voimme arvioida ROC-käyrän (pHit x pFA) ja zROC-funktion (zHit x zFA). Testataan hypoteesia, että zROC:n kaltevuus on yhtä suuri kuin 1 (yhtenäisen varianssin 2AFC-tehtävän seuraus).

  4. Lisää analyyseja. Onko toissijaisia ​​analyyseja?

    Katsomme, korreloivatko tarkkailijoiden subjektiiviset mielipiteet tekoälystä muuttujien, kuten empiirisen d-alkuluvun tai positiivisen ennustusarvon, kanssa.

  5. Otoskoko. Kuinka monta havaintoa kerätään tai mikä määrää otoskoon? Päätöstä ei tarvitse perustella, mutta kerro tarkasti, kuinka määrä määritetään.

    Testaamme 12 tarkkailijaa. Tämä on yhdenmukainen aikaisempien kokeiden otoskokojen kanssa.

  6. Muut. Onko jotain muuta, johon haluaisit ennakkoilmoittautua? (esim. tietojen poissulkeminen, tutkimustarkoituksiin kerätyt muuttujat, suunniteltu epätavallinen analyysi?)

Ei käytössä

Opintotyyppi

Interventio

Ilmoittautuminen (Arvioitu)

15

Vaihe

  • Ei sovellettavissa

Yhteystiedot ja paikat

Tässä osiossa on tutkimuksen suorittajien yhteystiedot ja tiedot siitä, missä tämä tutkimus suoritetaan.

Opiskeluyhteys

Opiskelupaikat

    • Massachusetts
      • Boston, Massachusetts, Yhdysvallat, 02215
        • Rekrytointi
        • Visual Attention Lab / Brigham and Women's Hospital
        • Ottaa yhteyttä:

Osallistumiskriteerit

Tutkijat etsivät ihmisiä, jotka sopivat tiettyyn kuvaukseen, jota kutsutaan kelpoisuuskriteereiksi. Joitakin esimerkkejä näistä kriteereistä ovat henkilön yleinen terveydentila tai aiemmat hoidot.

Kelpoisuusvaatimukset

Opintokelpoiset iät

18 vuotta ja vanhemmat (Aikuinen, Vanhempi Aikuinen)

Hyväksyy terveitä vapaaehtoisia

Joo

Kuvaus

Sisällyttämiskriteerit:

  • - Kaikki tervetuloa ilmoittautumaan verkossa

Poissulkemiskriteerit:

  • On läpäistävä Ishihara-värinäköseulontatesti
  • 20/25 näkö (korjauksella)

Opintosuunnitelma

Tässä osiossa on tietoja tutkimussuunnitelmasta, mukaan lukien kuinka tutkimus on suunniteltu ja mitä tutkimuksella mitataan.

Miten tutkimus on suunniteltu?

Suunnittelun yksityiskohdat

  • Ensisijainen käyttötarkoitus: Perustiede
  • Jako: Ei käytössä
  • Inventiomalli: Yksittäinen ryhmätehtävä
  • Naamiointi: Ei mitään (avoin tarra)

Aseet ja interventiot

Osallistujaryhmä / Arm
Interventio / Hoito
Kokeellinen: Koe
Kaikki osallistujat testataan kaikissa tämän kokeen olosuhteissa.
Tässä kokeessa osallistuja tekee joissakin olosuhteissa päätöksensä simuloidun tekoälypäätöksen tiedon läsnä ollessa.
Tavoitteiden esittämistiheys vaihtelee 10 prosentista 90 prosenttiin
Muut nimet:
  • Peruskorko

Mitä tutkimuksessa mitataan?

Ensisijaiset tulostoimenpiteet

Tulosmittaus
Toimenpiteen kuvaus
Aikaikkuna
D'
Aikaikkuna: Jopa viikko
D' (d-prime) on signaalin havaitsemisen teorian mitta, joka mittaa tehtävän suoritustasoa.
Jopa viikko
Kriteeri
Aikaikkuna: Jopa viikko
Kriteeri on signaalintunnistusteorian mitta tarkkailijoiden päätösten harhalle ("liberaali" tai "konservatiivinen")
Jopa viikko

Toissijaiset tulostoimenpiteet

Tulosmittaus
Toimenpiteen kuvaus
Aikaikkuna
Reaktioaika
Aikaikkuna: Jopa viikko
Tämä mittaa, kuinka kauan vastauksen tekeminen kestää.
Jopa viikko

Yhteistyökumppanit ja tutkijat

Täältä löydät tähän tutkimukseen osallistuvat ihmiset ja organisaatiot.

Tutkijat

  • Päätutkija: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Opintojen ennätyspäivät

Nämä päivämäärät seuraavat ClinicalTrials.gov-sivustolle lähetettyjen tutkimustietueiden ja yhteenvetojen edistymistä. National Library of Medicine (NLM) tarkistaa tutkimustiedot ja raportoidut tulokset varmistaakseen, että ne täyttävät tietyt laadunvalvontastandardit, ennen kuin ne julkaistaan ​​julkisella verkkosivustolla.

Opi tärkeimmät päivämäärät

Opiskelun aloitus (Todellinen)

Keskiviikko 1. tammikuuta 2020

Ensisijainen valmistuminen (Arvioitu)

Torstai 1. elokuuta 2024

Opintojen valmistuminen (Arvioitu)

Keskiviikko 1. tammikuuta 2025

Opintoihin ilmoittautumispäivät

Ensimmäinen lähetetty

Perjantai 18. helmikuuta 2022

Ensimmäinen toimitettu, joka täytti QC-kriteerit

Maanantai 28. helmikuuta 2022

Ensimmäinen Lähetetty (Todellinen)

Keskiviikko 9. maaliskuuta 2022

Tutkimustietojen päivitykset

Viimeisin päivitys julkaistu (Todellinen)

Torstai 27. heinäkuuta 2023

Viimeisin lähetetty päivitys, joka täytti QC-kriteerit

Tiistai 25. heinäkuuta 2023

Viimeksi vahvistettu

Lauantai 1. heinäkuuta 2023

Lisää tietoa

Tähän tutkimukseen liittyvät termit

Muita asiaankuuluvia MeSH-ehtoja

Muut tutkimustunnusnumerot

  • 2007P000646-B

Yksittäisten osallistujien tietojen suunnitelma (IPD)

Aiotko jakaa yksittäisten osallistujien tietoja (IPD)?

JOO

IPD-suunnitelman kuvaus

Tunnistamattomat raakatiedot julkaistaan ​​kokeen OSF-sivulla, ja ne ovat pyynnöstä myös PI:n saatavilla.

IPD-jaon aikakehys

Materiaalit ovat saatavilla pyydettäessä

IPD-jaon käyttöoikeuskriteerit

olennaisesti rajoittamaton

IPD-jakamista tukeva tietotyyppi

  • STUDY_PROTOCOL
  • MAHLA
  • ICF

Lääke- ja laitetiedot, tutkimusasiakirjat

Tutkii yhdysvaltalaista FDA sääntelemää lääkevalmistetta

Ei

Tutkii yhdysvaltalaista FDA sääntelemää laitetuotetta

Ei

Nämä tiedot haettiin suoraan verkkosivustolta clinicaltrials.gov ilman muutoksia. Jos sinulla on pyyntöjä muuttaa, poistaa tai päivittää tutkimustietojasi, ota yhteyttä register@clinicaltrials.gov. Heti kun muutos on otettu käyttöön osoitteessa clinicaltrials.gov, se päivitetään automaattisesti myös verkkosivustollemme .

3
Tilaa