Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Skalierbare klinische Überwachung von großen Sprachmodellen durch Unsicherheitstriangulation (SCOUT)

14. Februar 2026 aktualisiert von: China National Center for Cardiovascular Diseases

Prospektive Evaluation eines modellagnostischen Meta-Verifizierungs-Frameworks (SCOUT) für skalierbare klinische Überwachung von Large Language Model-Outputs in der Diagnose koronarer Herzkrankheiten: Eine Multi-Reader-, randomisierte, Crossover-Studie

Diese prospektive, multireader, randomisierte Crossover-Studie evaluiert SCOUT (Scalable Clinical Oversight via Uncertainty Triangulation), ein modellagnostisches Meta-Verifikationsframework, das unzuverlässige Vorhersagen großer Sprachmodelle (LLM) durch Triangulation von drei orthogonalen Unsicherheitssignalen selektiv an Kliniker delegiert: Modellheterogenität, stochastische Inkonsistenz und Kritik der Schlussfolgerung. Die Studie untersucht, ob die SCOUT-unterstützte Überprüfung im Vergleich zur Standardmanuellen Überprüfung KI-generierter Diagnosen die ärztliche Überprüfungszeit reduzieren kann, während eine nicht unterlegene diagnostische Genauigkeit bei der Subtypisierung der koronaren Herzkrankheit (KHK) erhalten bleibt.

Studienübersicht

Detaillierte Beschreibung

Hintergrund: Große Sprachmodelle werden zunehmend in klinischen Arbeitsabläufen eingesetzt, aber die Anforderung, jede KI-Ausgabe durch Kliniker überprüfen zu lassen, negiert die Effizienzgewinne, die ihre Einführung motivieren. SCOUT adressiert dieses Effizienz-Sicherheits-Paradoxon durch algorithmische Meta-Verifikation.

Das SCOUT-Framework trianguliert drei orthogonale externe Signale, um die Unsicherheit auf Fallbasis zu bestimmen: (1) Modellheterogenität - ob ein strukturell unterschiedliches Hilfs-LLM mit dem primären Modell übereinstimmt; (2) stochastische Inkonsistenz - ob wiederholtes Sampling aus demselben Modell divergierende Ausgaben liefert; (3) Argumentationskritik - ob ein externes Prüfmodell logische Fehler in der Gedankenketten-Argumentation identifiziert.

In dieser Crossover-Studie überprüfen 7 Kliniker unterschiedlicher Erfahrungsstufen (2 Assistenzärzte, 3 Oberärzte, 2 leitende Ärzte) jeweils alle 110 Fälle sowohl unter Standardmanueller Überprüfung als auch unter SCOUT-unterstützten Arbeitsabläufen. Die Studie bewertet die Arbeitsablaufeffizienz (primärer Endpunkt) und die diagnostische Genauigkeit (sekundärer Endpunkt).

Studientyp

Interventionell

Einschreibung (Geschätzt)

7

Phase

  • Unzutreffend

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienkontakt

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

  • Erwachsene
  • Älterer Erwachsener

Akzeptiert gesunde Freiwillige

Nein

Beschreibung

Einschlusskriterien:

  • Facharztzertifizierte oder in Ausbildung befindliche Kardiologen am Fuwai-Krankenhaus
  • Umfasst drei Erfahrungsebenen: Assistenzärzte, Fachärzte in Weiterbildung, Oberärzte

Ausschlusskriterien:

  • Kliniker, die an der Entwicklung oder Optimierung des SCOUT-Rahmens beteiligt waren
  • Kliniker, die am Goldstandard-Bewertungsprozess beteiligt waren

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

  • Hauptzweck: Diagnose
  • Zuteilung: Zufällig
  • Interventionsmodell: Crossover-Aufgabe
  • Maskierung: Keine (Offenes Etikett)

Waffen und Interventionen

Teilnehmergruppe / Arm
Intervention / Behandlung
Aktiver Komparator: Kontrollgruppe (Standard manuelle Überprüfung)
Die Ärzte überprüfen manuell alle Fälle in der Kontrollgruppe (n=54) mit Zugriff auf KI-Vorhersagen und -Begründungen. Keine selektive Zurückstellung.
Ärzte führen eine vollständige manuelle Überprüfung von 54 Fällen durch, wobei sie auf Rohdaten medizinischer Aufzeichnungen zugreifen und die Vorhersagen und Begründungen des KI-Modells einsehen können, jedoch ohne SCOUT-Unsicherheitsstratifikation oder selektive Zurückstellung.
Experimental: Experimental (SCOUT-Assistierte Überprüfung)
Die Ärzte verarbeiten das Interventionsset (n=56) über das SCOUT-Framework. Fälle mit geringer Unsicherheit werden automatisch akzeptiert; Fälle mit hoher Unsicherheit durchlaufen eine ärztliche Überprüfung mit vollständiger Prüfspur.
SCOUT-gestützte Überprüfung (Interventionsarm): Ärzte überprüfen 56 Fälle, die durch das SCOUT-Framework verarbeitet wurden. Für Fälle, die als geringe Unsicherheit klassifiziert sind (D(x)=0), wird die KI-Vorhersage automatisch akzeptiert, ohne ärztliche Überprüfung. Für Fälle mit hoher Unsicherheit (D(x)=1) überprüft der Arzt den Fall mit Zugriff auf die Chain-of-Thought-Begründung des Hauptmodells und die Ergebnisse der Meta-Verifizierungsprüfung. Das Hauptmodell ist DeepSeek-V3.1 mit Chain-of-Thought-Prompting.

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Durchschnittliche Prüfzeit pro Fall durch den Arzt (Minuten)
Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.
Mittlere Zeit, die jeder Kliniker pro Fall in jeder Studiengruppe für die Überprüfung und Erstellung einer Diagnoseentscheidung aufwendet. Gemessen in Minuten.
Bis zum Studienabschluss, durchschnittlich 2 Stunden.

Sekundäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Diagnostische Genauigkeit (%)
Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.
Anteil korrekter KHK-Subtypklassifikationen (STEMI, NSTEMI, instabile Angina pectoris, chronische koronare Syndrome) in jedem Arm.
Bis zum Studienabschluss, durchschnittlich 2 Stunden.
Berechnete Kapitalrendite (ROI)
Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.
Verhältnis der eingesparten Arztzeit (bewertet anhand standardisierter Minutenlöhne aus den Sanming-Gesundheitsreform-Benchmarks) zu den Berechnungskosten der SCOUT-Inferenz, nach klinischer Erfahrungsstufe geschichtet.
Bis zum Studienabschluss, durchschnittlich 2 Stunden.

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Geschätzt)

19. Februar 2026

Primärer Abschluss (Geschätzt)

28. Februar 2026

Studienabschluss (Geschätzt)

28. Februar 2026

Studienanmeldedaten

Zuerst eingereicht

9. Februar 2026

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

14. Februar 2026

Zuerst gepostet (Tatsächlich)

17. Februar 2026

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

17. Februar 2026

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

14. Februar 2026

Zuletzt verifiziert

1. Februar 2026

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Schlüsselwörter

Andere Studien-ID-Nummern

  • 2025-2702-1

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

JA

Beschreibung des IPD-Plans

Die anonymisierten individuellen Teilnehmerdaten, die den in dieser Studie berichteten Ergebnissen zugrunde liegen, werden verfügbar gemacht.

IPD-Sharing-Zeitrahmen

Ab 1 Monat nach Veröffentlichung der primären Ergebnisse und verfügbar für bis zu 60 Monate.

IPD-Sharing-Zugriffskriterien

Die Daten sind auf begründete Anfrage beim entsprechenden Autor erhältlich. Antragsteller müssen einen methodisch fundierten Forschungsvorschlag vorlegen und eine Datenverwendungsvereinbarung unterzeichnen.

Art der unterstützenden IPD-Freigabeinformationen

  • STUDIENPROTOKOLL
  • SAFT
  • ICF
  • ANALYTIC_CODE
  • CSR

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur Standardisierter manueller Prüfungsablauf

Abonnieren