- ICH GCP
- US-Register für klinische Studien
- Klinische Studie NCT05272189
Beispiel für Projekt 3: Human-AI Collaboration Tester (HAICT) Exp. 7
Studienübersicht
Status
Bedingungen
Intervention / Behandlung
Detaillierte Beschreibung
Bei diesem Text handelt es sich um den Text der Vorregistrierung für das HAICT 7-Experiment, wie im Open Science Framework beschrieben. https://osf.io/hngu4/
HINWEIS: Diese Studie ist repräsentativ für Studien, die im Rahmen von Projekt 3 dieses Zuschusses durchgeführt wurden. Das von Projekt 3 dargestellte Experimentbündel enthält mehrere Experimente, es ist jedoch nicht möglich, ein Studienbündel auf CT.gov zu registrieren.
HINWEIS: Da der Pronomenkommentar beratend ist, belassen wir ihn vorerst.
Human-AI Collaboration Tester (HAICT) Exp. 7 (leicht bearbeitet von OSF)
Datensammlung. Wurden für diese Studie bereits Daten erhoben? (Ja Nein)
Ja
- Hypothese. Was ist die Hauptfrage, die in dieser Studie gestellt oder welche Hypothese getestet wird?
Hintergrund: In einer Vielzahl von Suchexperimenten, sowohl einfachen als auch klinischen, stimmten die Daten mit einer Situation überein, in der die Variabilität des Signals (oder Ziels) größer ist als die Variabilität des Rauschens (Distraktoren). Das klassische Zeichen hierfür ist eine zROC-Funktion mit einer Steigung < 1 – typischerweise etwa 0,6. Eine Steigung von 1,0 weist auf eine 2AFC-Aufgabe mit gleicher Varianz hin. Für die HAICT-Aufgabe, die wir getestet haben, würden wir eine gleiche Varianz erwarten, denken aber, dass es sich lohnen würde, dies zu überprüfen, damit wir die Prävalenz systematisch variieren, was zu einer Verschiebung des Kriteriums führt. Dadurch entsteht eine ROC-Kurve, die wir untersuchen können.
Wir werden auch die Zweitleser-Faux-KI testen, um festzustellen, ob eine niedrige Prävalenz den Zweitleser verschlimmert.
- (H1): Wir gehen davon aus, dass wir die Feststellung wiederholen können, dass menschliche Kriterien mit abnehmender Prävalenz konservativer werden.
- (H2): Wir sagen voraus, dass die Steigung des resultierenden zROC 1,0 betragen wird.
(H3): Wir gehen davon aus, dass eine niedrige Prävalenz dazu führt, dass die Zweitleser-KI weniger effektiv ist, da der positive Vorhersagewert ihrer Kommentare gering sein wird.
Abhängige Variable. Beschreiben Sie die wichtigsten abhängigen Variablen und geben Sie an, wie sie gemessen werden.
Die wichtigsten abhängigen Variablen von Interesse sind die Genauigkeit (und die Signalerkennungsableitungen der Genauigkeit, d' und c), die Reaktionszeit und die subjektiven Bewertungen der Umfrage nach jedem Block.
- Bedingungen. Wie vielen und welchen Konditionen werden die Teilnehmer zugeordnet?
In dieser Versuchsreihe wird untersucht, wie sich die Änderung des Inputs einer simulierten KI auf die Entscheidungen auswirken kann, die menschliche Beobachter in einer Zwei-Alternative-Forced-Choice-Aufgabe treffen (wie die Entscheidung, eine Frau zur weiteren Untersuchung in der Mammographie zurückzurufen). Wir haben ein Paradigma namens Human-AI Collaboration Tester (HAICT) entwickelt, das ein effizientes Testen von Interaktionen zwischen einem Menschen und einer simulierten KI ermöglicht.
Die Aufgabe der Beobachter besteht unter allen Bedingungen darin, eine 2AFC-Entscheidung darüber zu treffen, ob ein Reiz „schlecht“ oder „nicht schlecht“ ist. Um eine Sprache zu verwenden, die annähernd eine medizinische Diagnose nachahmt, wird jeder Reiz als „Fall“ bezeichnet. Beobachter werden gebeten, eine 2AFC-Entscheidung über Anordnungen farbiger Formen zu treffen. Die Entscheidung wird anhand der vorherrschenden Farbe des Gehäuses getroffen. Die Anzahl der Elemente jeder Farbe wird aus einer von zwei Normalverteilungen ermittelt, eine für positive (schlechte) Reize und die andere für negative (nicht schlechte) Reize.
Die Ergebnisse früherer HAICT-Experimente (3 und 4) zeigten, dass die menschliche Leistung in der Zweitleser-Bedingung bei geringer Prävalenz deutlich abnimmt. Die Leistung in der Zweitleser-Bedingung war besser als bei Baseline, als die Prävalenz schlechter Fälle 50 % betrug, war jedoch deutlich schlechter als bei Baseline, als die Prävalenz nur 10 % betrug. In diesem Experiment manipulieren wir die Prävalenz „schlechter“ Fälle unter den Bedingungen „Second Reader“ und „Baseline“. Es werden vier verschiedene Prävalenzraten getestet: 10 %, 33 %, 67 % und 90 %. Beobachter absolvieren 8 Blöcke (2 KI-Regeln x 4 Prävalenzraten) und die Reihenfolge der Blöcke ist zufällig.
Zu testende KI-Regeln:
- Grundlinie – Keine KI-Eingabe. Der Beobachter klassifiziert jeden Fall einzeln als „schlecht“ oder „nicht“ schlecht.
Zweiter Leser – Der Beobachter trifft in jedem Fall eine erste Entscheidung. Die KI klassifiziert Reize stillschweigend anhand eines konservativen Kriteriums (c = 0,5). Die Logik hinter dem konservativen Kriterium besteht darin, dass der zweite Leser dazu dient, falsch-positive Antworten zu reduzieren und daher positive menschliche Antworten, die möglicherweise marginal sind, in Frage zu stellen. Wenn Beobachter und KI anderer Meinung sind, informiert die KI den menschlichen Beobachter. Der Beobachter hat dann die Möglichkeit, entweder seine Antwort zu ändern oder seiner ersten Meinung zu folgen.
Wie in den Experimenten 1–5 ist der AI d-prime auf 2,2 festgelegt. Es ist bekannt, dass Feedback den Prävalenzeffekt erhöht, daher wird sowohl in der Praxis als auch in den Testversuchen Feedback gegeben. Beobachter werden in jedem Block 20 Übungsversuche und 200 Testversuche absolvieren. Unmittelbar nach Abschluss jedes Blocks wird den Beobachtern eine Zusammenfassung ihrer Leistung angezeigt. Nach den Second Reader-Blöcken werden sie außerdem gebeten, drei subjektive Fragen zum Nutzen der KI zu beantworten (weitere Einzelheiten finden Sie unter „Dateien“).
Analysen. Geben Sie genau an, welche Analysen Sie zur Untersuchung der Hauptfrage/-hypothese durchführen werden.
Zunächst fassen wir die Anzahl der Treffer, echten Negative, Fehlschläge und Fehlalarme in jedem Block zusammen. Daraus können wir die Genauigkeit, den positiven Vorhersagewert, die Empfindlichkeit (d-prime) und das Kriterium für jeden Beobachter unter den verschiedenen Bedingungen berechnen. Anhand der Leistungsmaße auf 4 Prävalenzstufen können wir die ROC-Kurve (pHit x pFA) und die zROC-Funktion (zHit x zFA) schätzen. Wir werden die Hypothese testen, dass die Steigung des zROC gleich 1 ist (die Konsequenz einer 2AFC-Aufgabe mit gleicher Varianz).
Weitere Analysen. Irgendwelche Sekundäranalysen?
Wir werden untersuchen, ob die subjektiven Meinungen der Beobachter über die KI mit Variablen wie dem empirischen d-prime oder dem positiven Vorhersagewert korrelieren.
Probengröße. Wie viele Beobachtungen werden gesammelt oder was bestimmt die Stichprobengröße? Sie müssen die Entscheidung nicht begründen, aber geben Sie genau an, wie die Zahl ermittelt wird.
Wir werden 12 Beobachter testen. Dies steht im Einklang mit den Stichprobengrößen früherer Experimente.
- Andere. Gibt es noch etwas, das Sie vorab anmelden möchten? (z. B. Datenausschlüsse, zu explorativen Zwecken gesammelte Variablen, geplante ungewöhnliche Analysen?)
N / A
Studientyp
Einschreibung (Tatsächlich)
Phase
- Unzutreffend
Kontakte und Standorte
Studienorte
-
-
Massachusetts
-
Boston, Massachusetts, Vereinigte Staaten, 02215
- Visual Attention Lab / Brigham and Women's Hospital
-
-
Teilnahmekriterien
Zulassungskriterien
Studienberechtigtes Alter
Akzeptiert gesunde Freiwillige
Beschreibung
Einschlusskriterien:
- - Alle sind herzlich eingeladen, sich online anzumelden
Ausschlusskriterien:
- Muss den Ishihara-Farbsehtest bestehen
- Sehstärke 20/25 (mit Korrektur)
Studienplan
Wie ist die Studie aufgebaut?
Designdetails
- Hauptzweck: Grundlegende Wissenschaft
- Zuteilung: N / A
- Interventionsmodell: Einzelgruppenzuweisung
- Maskierung: Keine (Offenes Etikett)
Waffen und Interventionen
Teilnehmergruppe / Arm |
Intervention / Behandlung |
|---|---|
|
Experimental: Experiment
Alle Teilnehmer werden unter allen Bedingungen dieses Experiments getestet.
|
In diesem Experiment trifft der Teilnehmer unter bestimmten Bedingungen seine Entscheidung in Gegenwart von Informationen über eine simulierte Entscheidung durch künstliche Intelligenz.
Die Häufigkeit, mit der Ziele präsentiert werden, variiert zwischen 10 % und 90 %.
Andere Namen:
|
Was misst die Studie?
Primäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
D'
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
|
D' (d-Prime) ist das Maß der Signalentdeckungstheorie für das Leistungsniveau bei einer Aufgabe.
Es wird berechnet, indem der Anteil der wahren positiven Antworten = (wahre positive Versuche)/(wahre positive + falsch negative Versuche) = p(TP) und der Anteil der falsch positiven Antworten = (falsch positive Versuche)/(falsch positive + wahre negative Versuche) = p(FP) berechnet wird.
Diese Werte werden in 'z-Werte' transformiert (zum Beispiel unter Verwendung von NORMSINV in Excel zur Berechnung der Umkehrung der Standardnormalverteilung).
D' ist definiert als Z(TP)-Z(FP).
Seine Reichweite reicht von 0 für Fälle, in denen kein Signal vom Rauschen unterschieden werden kann, bis ~4,0.
Die Obergrenze ist nicht definiert, aber 4 würde bedeuten, dass ein Beobachter im Wesentlichen perfekt darin ist, Signal von Rauschen zu unterscheiden.
|
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
|
|
Kriterium
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
|
Das Kriterium, wie D' (siehe oben), wird aus z(TP) und z(FP) berechnet.
Kriterium (c) = (z(TP)+z(FP))/-2.
Ein Wert von null bedeutet, dass der Beobachter mit gleicher Wahrscheinlichkeit eine positive (z.B. 'Ziel vorhanden') wie eine negative (abwesend) Antwort gibt.
Positive Werte bedeuten, dass der Beobachter mit größerer Wahrscheinlichkeit "abwesend" sagt (ein "konservatives" Kriterium).
Negative Werte bedeuten, dass der Beobachter mit größerer Wahrscheinlichkeit "vorhanden" sagt (ein "liberales" Kriterium).
Liberal und konservativ haben in diesem Fall keine politischen Konnotationen.
Kriteriumswerte liegen fast immer zwischen -2 und 2.
|
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
|
Sekundäre Ergebnismessungen
Ergebnis Maßnahme |
Maßnahmenbeschreibung |
Zeitfenster |
|---|---|---|
|
Reaktionszeit
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde gesammelt.
|
Dies ist das Maß dafür, wie lange es dauert, eine Antwort zu geben.
|
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde gesammelt.
|
Mitarbeiter und Ermittler
Sponsor
Mitarbeiter
Ermittler
- Hauptermittler: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Studienaufzeichnungsdaten
Haupttermine studieren
Studienbeginn (Tatsächlich)
Primärer Abschluss (Tatsächlich)
Studienabschluss (Tatsächlich)
Studienanmeldedaten
Zuerst eingereicht
Zuerst eingereicht, das die QC-Kriterien erfüllt hat
Zuerst gepostet (Tatsächlich)
Studienaufzeichnungsaktualisierungen
Letztes Update gepostet (Tatsächlich)
Letztes eingereichtes Update, das die QC-Kriterien erfüllt
Zuletzt verifiziert
Mehr Informationen
Begriffe im Zusammenhang mit dieser Studie
Schlüsselwörter
Zusätzliche relevante MeSH-Bedingungen
Andere Studien-ID-Nummern
- 2007P000646-B
- R01CA207490 (US NIH Stipendium/Vertrag)
Plan für individuelle Teilnehmerdaten (IPD)
Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?
Beschreibung des IPD-Plans
IPD-Sharing-Zeitrahmen
IPD-Sharing-Zugriffskriterien
Art der unterstützenden IPD-Freigabeinformationen
- STUDIENPROTOKOLL
- SAFT
- ICF
Arzneimittel- und Geräteinformationen, Studienunterlagen
Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt
Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt
Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .
Klinische Studien zur Entscheidungsfindung
-
University of NebraskaAbgeschlossenNetzwerkanalyse der körperweiten Koordination zur Unterstützung der supraposturalen GeschicklichkeitBalance Board | Trail -Making -AufgabeVereinigte Staaten