Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Beispiel für Projekt 3: Human-AI Collaboration Tester (HAICT) Exp. 7

29. Dezember 2025 aktualisiert von: Jeremy M Wolfe, PhD, Brigham and Women's Hospital
Die Studie ist Teil eines „Bündels“ von Experimenten, die das dritte Projekt eines Zuschusses des National Eye Institute bilden. Projekt Drei umfasst eine Reihe von Experimenten, die untersuchen, wie sich die Änderung des Inputs einer simulierten KI auf die Entscheidungen auswirken kann, die menschliche Beobachter in einer Zwangsauswahlaufgabe mit zwei Alternativen treffen (wie die Entscheidung, eine Frau zur weiteren Untersuchung in der Mammographie zurückzurufen). HAICT 7, das hier beschriebene Experiment, untersucht, wie sich eine sich ändernde Prävalenz auf die menschliche Leistung auswirkt, wenn KI als Zweitleser eingesetzt wird.

Studienübersicht

Detaillierte Beschreibung

Bei diesem Text handelt es sich um den Text der Vorregistrierung für das HAICT 7-Experiment, wie im Open Science Framework beschrieben. https://osf.io/hngu4/

HINWEIS: Diese Studie ist repräsentativ für Studien, die im Rahmen von Projekt 3 dieses Zuschusses durchgeführt wurden. Das von Projekt 3 dargestellte Experimentbündel enthält mehrere Experimente, es ist jedoch nicht möglich, ein Studienbündel auf CT.gov zu registrieren.

HINWEIS: Da der Pronomenkommentar beratend ist, belassen wir ihn vorerst.

Human-AI Collaboration Tester (HAICT) Exp. 7 (leicht bearbeitet von OSF)

  1. Datensammlung. Wurden für diese Studie bereits Daten erhoben? (Ja Nein)

    Ja

  2. Hypothese. Was ist die Hauptfrage, die in dieser Studie gestellt oder welche Hypothese getestet wird?

Hintergrund: In einer Vielzahl von Suchexperimenten, sowohl einfachen als auch klinischen, stimmten die Daten mit einer Situation überein, in der die Variabilität des Signals (oder Ziels) größer ist als die Variabilität des Rauschens (Distraktoren). Das klassische Zeichen hierfür ist eine zROC-Funktion mit einer Steigung < 1 – typischerweise etwa 0,6. Eine Steigung von 1,0 weist auf eine 2AFC-Aufgabe mit gleicher Varianz hin. Für die HAICT-Aufgabe, die wir getestet haben, würden wir eine gleiche Varianz erwarten, denken aber, dass es sich lohnen würde, dies zu überprüfen, damit wir die Prävalenz systematisch variieren, was zu einer Verschiebung des Kriteriums führt. Dadurch entsteht eine ROC-Kurve, die wir untersuchen können.

Wir werden auch die Zweitleser-Faux-KI testen, um festzustellen, ob eine niedrige Prävalenz den Zweitleser verschlimmert.

  • (H1): Wir gehen davon aus, dass wir die Feststellung wiederholen können, dass menschliche Kriterien mit abnehmender Prävalenz konservativer werden.
  • (H2): Wir sagen voraus, dass die Steigung des resultierenden zROC 1,0 betragen wird.
  • (H3): Wir gehen davon aus, dass eine niedrige Prävalenz dazu führt, dass die Zweitleser-KI weniger effektiv ist, da der positive Vorhersagewert ihrer Kommentare gering sein wird.

    1. Abhängige Variable. Beschreiben Sie die wichtigsten abhängigen Variablen und geben Sie an, wie sie gemessen werden.

      Die wichtigsten abhängigen Variablen von Interesse sind die Genauigkeit (und die Signalerkennungsableitungen der Genauigkeit, d' und c), die Reaktionszeit und die subjektiven Bewertungen der Umfrage nach jedem Block.

    2. Bedingungen. Wie vielen und welchen Konditionen werden die Teilnehmer zugeordnet?

In dieser Versuchsreihe wird untersucht, wie sich die Änderung des Inputs einer simulierten KI auf die Entscheidungen auswirken kann, die menschliche Beobachter in einer Zwei-Alternative-Forced-Choice-Aufgabe treffen (wie die Entscheidung, eine Frau zur weiteren Untersuchung in der Mammographie zurückzurufen). Wir haben ein Paradigma namens Human-AI Collaboration Tester (HAICT) entwickelt, das ein effizientes Testen von Interaktionen zwischen einem Menschen und einer simulierten KI ermöglicht.

Die Aufgabe der Beobachter besteht unter allen Bedingungen darin, eine 2AFC-Entscheidung darüber zu treffen, ob ein Reiz „schlecht“ oder „nicht schlecht“ ist. Um eine Sprache zu verwenden, die annähernd eine medizinische Diagnose nachahmt, wird jeder Reiz als „Fall“ bezeichnet. Beobachter werden gebeten, eine 2AFC-Entscheidung über Anordnungen farbiger Formen zu treffen. Die Entscheidung wird anhand der vorherrschenden Farbe des Gehäuses getroffen. Die Anzahl der Elemente jeder Farbe wird aus einer von zwei Normalverteilungen ermittelt, eine für positive (schlechte) Reize und die andere für negative (nicht schlechte) Reize.

Die Ergebnisse früherer HAICT-Experimente (3 und 4) zeigten, dass die menschliche Leistung in der Zweitleser-Bedingung bei geringer Prävalenz deutlich abnimmt. Die Leistung in der Zweitleser-Bedingung war besser als bei Baseline, als die Prävalenz schlechter Fälle 50 % betrug, war jedoch deutlich schlechter als bei Baseline, als die Prävalenz nur 10 % betrug. In diesem Experiment manipulieren wir die Prävalenz „schlechter“ Fälle unter den Bedingungen „Second Reader“ und „Baseline“. Es werden vier verschiedene Prävalenzraten getestet: 10 %, 33 %, 67 % und 90 %. Beobachter absolvieren 8 Blöcke (2 KI-Regeln x 4 Prävalenzraten) und die Reihenfolge der Blöcke ist zufällig.

Zu testende KI-Regeln:

  1. Grundlinie – Keine KI-Eingabe. Der Beobachter klassifiziert jeden Fall einzeln als „schlecht“ oder „nicht“ schlecht.
  2. Zweiter Leser – Der Beobachter trifft in jedem Fall eine erste Entscheidung. Die KI klassifiziert Reize stillschweigend anhand eines konservativen Kriteriums (c = 0,5). Die Logik hinter dem konservativen Kriterium besteht darin, dass der zweite Leser dazu dient, falsch-positive Antworten zu reduzieren und daher positive menschliche Antworten, die möglicherweise marginal sind, in Frage zu stellen. Wenn Beobachter und KI anderer Meinung sind, informiert die KI den menschlichen Beobachter. Der Beobachter hat dann die Möglichkeit, entweder seine Antwort zu ändern oder seiner ersten Meinung zu folgen.

    Wie in den Experimenten 1–5 ist der AI d-prime auf 2,2 festgelegt. Es ist bekannt, dass Feedback den Prävalenzeffekt erhöht, daher wird sowohl in der Praxis als auch in den Testversuchen Feedback gegeben. Beobachter werden in jedem Block 20 Übungsversuche und 200 Testversuche absolvieren. Unmittelbar nach Abschluss jedes Blocks wird den Beobachtern eine Zusammenfassung ihrer Leistung angezeigt. Nach den Second Reader-Blöcken werden sie außerdem gebeten, drei subjektive Fragen zum Nutzen der KI zu beantworten (weitere Einzelheiten finden Sie unter „Dateien“).

  3. Analysen. Geben Sie genau an, welche Analysen Sie zur Untersuchung der Hauptfrage/-hypothese durchführen werden.

    Zunächst fassen wir die Anzahl der Treffer, echten Negative, Fehlschläge und Fehlalarme in jedem Block zusammen. Daraus können wir die Genauigkeit, den positiven Vorhersagewert, die Empfindlichkeit (d-prime) und das Kriterium für jeden Beobachter unter den verschiedenen Bedingungen berechnen. Anhand der Leistungsmaße auf 4 Prävalenzstufen können wir die ROC-Kurve (pHit x pFA) und die zROC-Funktion (zHit x zFA) schätzen. Wir werden die Hypothese testen, dass die Steigung des zROC gleich 1 ist (die Konsequenz einer 2AFC-Aufgabe mit gleicher Varianz).

  4. Weitere Analysen. Irgendwelche Sekundäranalysen?

    Wir werden untersuchen, ob die subjektiven Meinungen der Beobachter über die KI mit Variablen wie dem empirischen d-prime oder dem positiven Vorhersagewert korrelieren.

  5. Probengröße. Wie viele Beobachtungen werden gesammelt oder was bestimmt die Stichprobengröße? Sie müssen die Entscheidung nicht begründen, aber geben Sie genau an, wie die Zahl ermittelt wird.

    Wir werden 12 Beobachter testen. Dies steht im Einklang mit den Stichprobengrößen früherer Experimente.

  6. Andere. Gibt es noch etwas, das Sie vorab anmelden möchten? (z. B. Datenausschlüsse, zu explorativen Zwecken gesammelte Variablen, geplante ungewöhnliche Analysen?)

N / A

Studientyp

Interventionell

Einschreibung (Tatsächlich)

12

Phase

  • Unzutreffend

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienorte

    • Massachusetts
      • Boston, Massachusetts, Vereinigte Staaten, 02215
        • Visual Attention Lab / Brigham and Women's Hospital

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

18 Jahre und älter (Erwachsene, Älterer Erwachsener)

Akzeptiert gesunde Freiwillige

Ja

Beschreibung

Einschlusskriterien:

  • - Alle sind herzlich eingeladen, sich online anzumelden

Ausschlusskriterien:

  • Muss den Ishihara-Farbsehtest bestehen
  • Sehstärke 20/25 (mit Korrektur)

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

  • Hauptzweck: Grundlegende Wissenschaft
  • Zuteilung: N / A
  • Interventionsmodell: Einzelgruppenzuweisung
  • Maskierung: Keine (Offenes Etikett)

Waffen und Interventionen

Teilnehmergruppe / Arm
Intervention / Behandlung
Experimental: Experiment
Alle Teilnehmer werden unter allen Bedingungen dieses Experiments getestet.
In diesem Experiment trifft der Teilnehmer unter bestimmten Bedingungen seine Entscheidung in Gegenwart von Informationen über eine simulierte Entscheidung durch künstliche Intelligenz.
Die Häufigkeit, mit der Ziele präsentiert werden, variiert zwischen 10 % und 90 %.
Andere Namen:
  • Basisgebühr

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
D'
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
D' (d-Prime) ist das Maß der Signalentdeckungstheorie für das Leistungsniveau bei einer Aufgabe. Es wird berechnet, indem der Anteil der wahren positiven Antworten = (wahre positive Versuche)/(wahre positive + falsch negative Versuche) = p(TP) und der Anteil der falsch positiven Antworten = (falsch positive Versuche)/(falsch positive + wahre negative Versuche) = p(FP) berechnet wird. Diese Werte werden in 'z-Werte' transformiert (zum Beispiel unter Verwendung von NORMSINV in Excel zur Berechnung der Umkehrung der Standardnormalverteilung). D' ist definiert als Z(TP)-Z(FP). Seine Reichweite reicht von 0 für Fälle, in denen kein Signal vom Rauschen unterschieden werden kann, bis ~4,0. Die Obergrenze ist nicht definiert, aber 4 würde bedeuten, dass ein Beobachter im Wesentlichen perfekt darin ist, Signal von Rauschen zu unterscheiden.
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
Kriterium
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.
Das Kriterium, wie D' (siehe oben), wird aus z(TP) und z(FP) berechnet. Kriterium (c) = (z(TP)+z(FP))/-2. Ein Wert von null bedeutet, dass der Beobachter mit gleicher Wahrscheinlichkeit eine positive (z.B. 'Ziel vorhanden') wie eine negative (abwesend) Antwort gibt. Positive Werte bedeuten, dass der Beobachter mit größerer Wahrscheinlichkeit "abwesend" sagt (ein "konservatives" Kriterium). Negative Werte bedeuten, dass der Beobachter mit größerer Wahrscheinlichkeit "vorhanden" sagt (ein "liberales" Kriterium). Liberal und konservativ haben in diesem Fall keine politischen Konnotationen. Kriteriumswerte liegen fast immer zwischen -2 und 2.
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde erfasst.

Sekundäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Reaktionszeit
Zeitfenster: Die Daten werden innerhalb einer Sitzung von etwa einer Stunde gesammelt.
Dies ist das Maß dafür, wie lange es dauert, eine Antwort zu geben.
Die Daten werden innerhalb einer Sitzung von etwa einer Stunde gesammelt.

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Ermittler

  • Hauptermittler: Jeremy M Wolfe, PhD, Brigham and Women's Hospital

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Tatsächlich)

1. Januar 2020

Primärer Abschluss (Tatsächlich)

1. August 2024

Studienabschluss (Tatsächlich)

4. November 2025

Studienanmeldedaten

Zuerst eingereicht

18. Februar 2022

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

28. Februar 2022

Zuerst gepostet (Tatsächlich)

9. März 2022

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

20. Januar 2026

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

29. Dezember 2025

Zuletzt verifiziert

1. Dezember 2025

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Zusätzliche relevante MeSH-Bedingungen

Andere Studien-ID-Nummern

  • 2007P000646-B
  • R01CA207490 (US NIH Stipendium/Vertrag)

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

JA

Beschreibung des IPD-Plans

Nicht identifizierte Rohdaten werden auf der OSF-Seite des Experiments veröffentlicht und stehen dem PI auf Anfrage auch zur Verfügung.

IPD-Sharing-Zeitrahmen

Materialien stehen auf Anfrage zur Verfügung

IPD-Sharing-Zugriffskriterien

grundsätzlich uneingeschränkt

Art der unterstützenden IPD-Freigabeinformationen

  • STUDIENPROTOKOLL
  • SAFT
  • ICF

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur Entscheidungsfindung

Abonnieren