Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Skalierbare klinische Überwachung von großen Sprachmodellen durch Unsicherheitstriangulation (SCOUT)

14. Februar 2026 aktualisiert von: China National Center for Cardiovascular Diseases

Prospektive Evaluation eines modellagnostischen Meta-Verifizierungs-Frameworks (SCOUT) für skalierbare klinische Überwachung von Large Language Model-Outputs in der Diagnose koronarer Herzkrankheiten: Eine Multi-Reader-, randomisierte, Crossover-Studie

Diese prospektive, multireader, randomisierte Crossover-Studie evaluiert SCOUT (Scalable Clinical Oversight via Uncertainty Triangulation), ein modellagnostisches Meta-Verifikationsframework, das unzuverlässige Vorhersagen großer Sprachmodelle (LLM) durch Triangulation von drei orthogonalen Unsicherheitssignalen selektiv an Kliniker delegiert: Modellheterogenität, stochastische Inkonsistenz und Kritik der Schlussfolgerung. Die Studie untersucht, ob die SCOUT-unterstützte Überprüfung im Vergleich zur Standardmanuellen Überprüfung KI-generierter Diagnosen die ärztliche Überprüfungszeit reduzieren kann, während eine nicht unterlegene diagnostische Genauigkeit bei der Subtypisierung der koronaren Herzkrankheit (KHK) erhalten bleibt.

Studienübersicht

Status

Noch keine Rekrutierung

Bedingungen

Koronare Herzkrankheit (KHK)

Intervention / Behandlung

Detaillierte Beschreibung

Hintergrund: Große Sprachmodelle werden zunehmend in klinischen Arbeitsabläufen eingesetzt, aber die Anforderung, jede KI-Ausgabe durch Kliniker überprüfen zu lassen, negiert die Effizienzgewinne, die ihre Einführung motivieren. SCOUT adressiert dieses Effizienz-Sicherheits-Paradoxon durch algorithmische Meta-Verifikation.

Das SCOUT-Framework trianguliert drei orthogonale externe Signale, um die Unsicherheit auf Fallbasis zu bestimmen: (1) Modellheterogenität - ob ein strukturell unterschiedliches Hilfs-LLM mit dem primären Modell übereinstimmt; (2) stochastische Inkonsistenz - ob wiederholtes Sampling aus demselben Modell divergierende Ausgaben liefert; (3) Argumentationskritik - ob ein externes Prüfmodell logische Fehler in der Gedankenketten-Argumentation identifiziert.

In dieser Crossover-Studie überprüfen 7 Kliniker unterschiedlicher Erfahrungsstufen (2 Assistenzärzte, 3 Oberärzte, 2 leitende Ärzte) jeweils alle 110 Fälle sowohl unter Standardmanueller Überprüfung als auch unter SCOUT-unterstützten Arbeitsabläufen. Die Studie bewertet die Arbeitsablaufeffizienz (primärer Endpunkt) und die diagnostische Genauigkeit (sekundärer Endpunkt).

Studientyp

Interventionell

Einschreibung (Geschätzt)

Phase

Unzutreffend

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienkontakt

Name: Xiaojin Gao, Dr.
Telefonnummer: +86 010 88322415
E-Mail: sophie_gao@sina.com

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

Erwachsene
Älterer Erwachsener

Akzeptiert gesunde Freiwillige

Nein

Beschreibung

Einschlusskriterien:

Facharztzertifizierte oder in Ausbildung befindliche Kardiologen am Fuwai-Krankenhaus
Umfasst drei Erfahrungsebenen: Assistenzärzte, Fachärzte in Weiterbildung, Oberärzte

Ausschlusskriterien:

Kliniker, die an der Entwicklung oder Optimierung des SCOUT-Rahmens beteiligt waren
Kliniker, die am Goldstandard-Bewertungsprozess beteiligt waren

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

Hauptzweck: Diagnose
Zuteilung: Zufällig
Interventionsmodell: Crossover-Aufgabe
Maskierung: Keine (Offenes Etikett)

Anzahl der Arme

Waffen und Interventionen

Teilnehmergruppe / Arm	Intervention / Behandlung
Aktiver Komparator: Kontrollgruppe (Standard manuelle Überprüfung) Die Ärzte überprüfen manuell alle Fälle in der Kontrollgruppe (n=54) mit Zugriff auf KI-Vorhersagen und -Begründungen. Keine selektive Zurückstellung.	Diagnosetest: Standardisierter manueller Prüfungsablauf Ärzte führen eine vollständige manuelle Überprüfung von 54 Fällen durch, wobei sie auf Rohdaten medizinischer Aufzeichnungen zugreifen und die Vorhersagen und Begründungen des KI-Modells einsehen können, jedoch ohne SCOUT-Unsicherheitsstratifikation oder selektive Zurückstellung.
Experimental: Experimental (SCOUT-Assistierte Überprüfung) Die Ärzte verarbeiten das Interventionsset (n=56) über das SCOUT-Framework. Fälle mit geringer Unsicherheit werden automatisch akzeptiert; Fälle mit hoher Unsicherheit durchlaufen eine ärztliche Überprüfung mit vollständiger Prüfspur.	Diagnosetest: SCOUT-unterstützter Prüfungsablauf SCOUT-gestützte Überprüfung (Interventionsarm): Ärzte überprüfen 56 Fälle, die durch das SCOUT-Framework verarbeitet wurden. Für Fälle, die als geringe Unsicherheit klassifiziert sind (D(x)=0), wird die KI-Vorhersage automatisch akzeptiert, ohne ärztliche Überprüfung. Für Fälle mit hoher Unsicherheit (D(x)=1) überprüft der Arzt den Fall mit Zugriff auf die Chain-of-Thought-Begründung des Hauptmodells und die Ergebnisse der Meta-Verifizierungsprüfung. Das Hauptmodell ist DeepSeek-V3.1 mit Chain-of-Thought-Prompting.

Teilnehmergruppe / Arm

Intervention / Behandlung

Aktiver Komparator: Kontrollgruppe (Standard manuelle Überprüfung)

Die Ärzte überprüfen manuell alle Fälle in der Kontrollgruppe (n=54) mit Zugriff auf KI-Vorhersagen und -Begründungen. Keine selektive Zurückstellung.

Diagnosetest: Standardisierter manueller Prüfungsablauf

Ärzte führen eine vollständige manuelle Überprüfung von 54 Fällen durch, wobei sie auf Rohdaten medizinischer Aufzeichnungen zugreifen und die Vorhersagen und Begründungen des KI-Modells einsehen können, jedoch ohne SCOUT-Unsicherheitsstratifikation oder selektive Zurückstellung.

Experimental: Experimental (SCOUT-Assistierte Überprüfung)

Die Ärzte verarbeiten das Interventionsset (n=56) über das SCOUT-Framework. Fälle mit geringer Unsicherheit werden automatisch akzeptiert; Fälle mit hoher Unsicherheit durchlaufen eine ärztliche Überprüfung mit vollständiger Prüfspur.

Diagnosetest: SCOUT-unterstützter Prüfungsablauf

SCOUT-gestützte Überprüfung (Interventionsarm): Ärzte überprüfen 56 Fälle, die durch das SCOUT-Framework verarbeitet wurden. Für Fälle, die als geringe Unsicherheit klassifiziert sind (D(x)=0), wird die KI-Vorhersage automatisch akzeptiert, ohne ärztliche Überprüfung. Für Fälle mit hoher Unsicherheit (D(x)=1) überprüft der Arzt den Fall mit Zugriff auf die Chain-of-Thought-Begründung des Hauptmodells und die Ergebnisse der Meta-Verifizierungsprüfung. Das Hauptmodell ist DeepSeek-V3.1 mit Chain-of-Thought-Prompting.

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme	Maßnahmenbeschreibung	Zeitfenster
Durchschnittliche Prüfzeit pro Fall durch den Arzt (Minuten) Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.	Mittlere Zeit, die jeder Kliniker pro Fall in jeder Studiengruppe für die Überprüfung und Erstellung einer Diagnoseentscheidung aufwendet. Gemessen in Minuten.	Bis zum Studienabschluss, durchschnittlich 2 Stunden.

Sekundäre Ergebnismessungen

Ergebnis Maßnahme	Maßnahmenbeschreibung	Zeitfenster
Diagnostische Genauigkeit (%) Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.	Anteil korrekter KHK-Subtypklassifikationen (STEMI, NSTEMI, instabile Angina pectoris, chronische koronare Syndrome) in jedem Arm.	Bis zum Studienabschluss, durchschnittlich 2 Stunden.
Berechnete Kapitalrendite (ROI) Zeitfenster: Bis zum Studienabschluss, durchschnittlich 2 Stunden.	Verhältnis der eingesparten Arztzeit (bewertet anhand standardisierter Minutenlöhne aus den Sanming-Gesundheitsreform-Benchmarks) zu den Berechnungskosten der SCOUT-Inferenz, nach klinischer Erfahrungsstufe geschichtet.	Bis zum Studienabschluss, durchschnittlich 2 Stunden.

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Sponsor

China National Center for Cardiovascular Diseases

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Geschätzt)

19. Februar 2026

Primärer Abschluss (Geschätzt)

28. Februar 2026

Studienabschluss (Geschätzt)

28. Februar 2026

Studienanmeldedaten

Zuerst eingereicht

9. Februar 2026

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

14. Februar 2026

Zuerst gepostet (Tatsächlich)

17. Februar 2026

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

17. Februar 2026

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

14. Februar 2026

Zuletzt verifiziert

1. Februar 2026

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Schlüsselwörter

künstliche Intelligenz

Zusätzliche relevante MeSH-Bedingungen

Andere Studien-ID-Nummern

2025-2702-1

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

Beschreibung des IPD-Plans

Die anonymisierten individuellen Teilnehmerdaten, die den in dieser Studie berichteten Ergebnissen zugrunde liegen, werden verfügbar gemacht.

IPD-Sharing-Zeitrahmen

Ab 1 Monat nach Veröffentlichung der primären Ergebnisse und verfügbar für bis zu 60 Monate.

IPD-Sharing-Zugriffskriterien

Die Daten sind auf begründete Anfrage beim entsprechenden Autor erhältlich. Antragsteller müssen einen methodisch fundierten Forschungsvorschlag vorlegen und eine Datenverwendungsvereinbarung unterzeichnen.

Art der unterstützenden IPD-Freigabeinformationen

STUDIENPROTOKOLL
SAFT
ICF
ANALYTIC_CODE
CSR

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur Standardisierter manueller Prüfungsablauf

Universitat Politècnica de Catalunya
University of Liverpool; The BMJ

Abgeschlossen

Bewertung der Auswirkungen der Bewertung der von den Autoren eingereichten CONSORT-Checkliste während des Peer-Reviews

Peer-Review, Veröffentlichung | Vollständigkeit der Berichterstattung

Vereinigtes Königreich
Hospital El Salvador

Noch keine Rekrutierung

Randomisierte Studie zur KI-Telemedizin-Unterstützung für Hausärzte in El Salvador

Künstliche Intelligenz (KI) in der Diagnose

El Salvador

Skalierbare klinische Überwachung von großen Sprachmodellen durch Unsicherheitstriangulation (SCOUT)

Prospektive Evaluation eines modellagnostischen Meta-Verifizierungs-Frameworks (SCOUT) für skalierbare klinische Überwachung von Large Language Model-Outputs in der Diagnose koronarer Herzkrankheiten: Eine Multi-Reader-, randomisierte, Crossover-Studie

Studienübersicht

Status

Bedingungen

Intervention / Behandlung

Detaillierte Beschreibung

Studientyp

Einschreibung (Geschätzt)

Phase

Kontakte und Standorte

Studienkontakt

Teilnahmekriterien

Zulassungskriterien

Studienberechtigtes Alter

Akzeptiert gesunde Freiwillige

Beschreibung

Studienplan

Wie ist die Studie aufgebaut?

Designdetails

Anzahl der Arme

Waffen und Interventionen

Teilnehmergruppe / Arm

Intervention / Behandlung

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme

Maßnahmenbeschreibung

Zeitfenster

Sekundäre Ergebnismessungen

Ergebnis Maßnahme

Maßnahmenbeschreibung

Zeitfenster

Mitarbeiter und Ermittler

Sponsor

Studienaufzeichnungsdaten

Haupttermine studieren

Studienbeginn (Geschätzt)

Primärer Abschluss (Geschätzt)

Studienabschluss (Geschätzt)

Studienanmeldedaten

Zuerst eingereicht

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

Zuerst gepostet (Tatsächlich)

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

Zuletzt verifiziert

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Schlüsselwörter

Zusätzliche relevante MeSH-Bedingungen

Andere Studien-ID-Nummern

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

Beschreibung des IPD-Plans

IPD-Sharing-Zeitrahmen

IPD-Sharing-Zugriffskriterien

Art der unterstützenden IPD-Freigabeinformationen

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Klinische Studien zur Standardisierter manueller Prüfungsablauf

Suchen Sie nach ähnlichen Studien

Sponsoren und Mitarbeiter

Krankheiten

Drogeninterventionen

CROs by country

CROs in Ghana

Bedingungen

Seltene Krankheiten

Drogeninterventionen

Nahrungsergänzungsmittel

Sponsor / Mitarbeiter

Standorte