Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Die diagnostische und Triage-Fähigkeit der Zusammenarbeit von Laien und großen Sprachmodellen in China

25. November 2025 aktualisiert von: Zhang Min, Huazhong University of Science and Technology

Die diagnostische und Triage-Fähigkeit der Zusammenarbeit zwischen Laien und großen Sprachmodellen: eine nationale Pretest-Posttest-randomisierte kontrollierte Studie in China

Das Ziel dieser randomisierten kontrollierten Studie ist es, die Rolle großer Sprachmodelle bei der Verbesserung der Fähigkeit von Laien zur Selbstdiagnose und Priorisierung von häufigen Krankheiten zu bewerten. Die Hauptfragen, die beantwortet werden sollen, sind:

  • Hilft die Verwendung eines LLMs den Teilnehmern dabei, im Vergleich zu ihrer ersten Vermutung ohne jegliche Hilfe, genauere Selbstdiagnosen und Versorgungsentscheidungen für häufige Erkrankungen zu treffen?
  • Wie viel besser ist es, wenn Menschen mit einem LLM zusammenarbeiten, im Vergleich zur Verwendung einer regulären Suchmaschine, der alleinigen Nutzung des LLMs oder der Entscheidung, wie Ärzte entscheiden würden? Die Forscher werden Teilnehmer, die nach dem Zufallsprinzip entweder der LLM-Gruppe (unter Verwendung von DeepSeek) oder der Suchmaschinengruppe zugewiesen wurden, vergleichen, um zu sehen, ob der LLM-unterstützte Ansatz zu besseren klinischen Urteilen führt.

Die Teilnehmer werden:

  • Eine von 48 kurzen, realistischen Gesundheitsvignetten lesen;
  • Eine erste Vermutung darüber anstellen, was möglicherweise falsch ist, indem sie bis zu drei mögliche Ursachen auflisten, die von der wahrscheinlichsten zur am wenigsten wahrscheinlichen eingestuft werden, und eine Versorgungsstufe wählen: Sofortige Versorgung suchen, innerhalb eines Tages einen Arzt aufsuchen, innerhalb einer Woche einen Arzt aufsuchen oder zu Hause ohne medizinische Versorgung behandeln.
  • Ihr zugewiesenes Tool (entweder DeepSeek oder eine Standard-Suchmaschine) verwenden, um Informationen nachzuschlagen und ihre Vermutung und Versorgungsentscheidung zu aktualisieren;
  • Ihre endgültige Diagnose und Versorgungswahl nach der Verwendung des Tools einreichen. Zusätzlich bewertete das Studienteam die Leistung von vier anderen KI-Modellen (GPT-4o, GPT-o1, DeepSeek-v3 und DeepSeek-r1) und 33 erfahrenen Allgemeinärzten an denselben Vignetten.

Studienübersicht

Studientyp

Interventionell

Einschreibung (Tatsächlich)

6360

Phase

  • Unzutreffend

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienorte

    • Hubei
      • Wuhan, Hubei, China
        • Tongji Medical College of Huazhong University of Science & Technology School of Medicine and Health Management

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

  • Erwachsene
  • Älterer Erwachsener

Akzeptiert gesunde Freiwillige

Nein

Beschreibung

Einschlusskriterien:

  • Alter 18 Jahre oder älter
  • Derzeitiger Wohnsitz in Festlandchina
  • Vorgeschichte hochwertiger Teilnahme an Online-Umfragen auf der Credamo-Plattform (historische Umfrageannahmequote ≥ 80 % und persönlicher Kreditscore ≥ 70)

Ausschlusskriterien:

  • Unvollständige Umfrageantworten
  • Scheitern an eingebetteten Qualitätskontrollpunkten
  • Unglaubwürdig kurze Bearbeitungszeit (< 180 Sekunden für die Suchmaschinengruppe; < 360 Sekunden für die LLM-Gruppe)
  • Angabe nicht-diagnostischer oder irrelevanter Antworten (z.B. "unbekannt", "weiß nicht")
  • Konsistentes Muster identischer Antworten über alle Punkte hinweg

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

  • Hauptzweck: Versorgungsforschung
  • Zuteilung: Zufällig
  • Interventionsmodell: Parallele Zuordnung
  • Maskierung: Single

Waffen und Interventionen

Teilnehmergruppe / Arm
Intervention / Behandlung
Experimental: Laien-LLM-integrierte Gruppe
Nachdem die Teilnehmer zunächst eine klinische Diagnose- und Triage-Frage ohne Hilfsmittel beantwortet hatten, wurden sie gebeten, ein großes Sprachmodell (Deepseek v3 oder r1) zu verwenden, um Gesundheitsinformationen abzurufen, und dann dieselbe Frage erneut zu beantworten
Teilnehmer in dieser Gruppe verwendeten ein großes Sprachmodell (DeepSeek), um nach medizinischen Informationen zu einer klinischen Vignette zu suchen, nachdem sie anfängliche diagnostische und Triage-Entscheidungen getroffen hatten. Sie wurden angewiesen, frei mit dem Modell zu interagieren, um Erkenntnisse zu sammeln, und dann ihre Diagnosen und Triage-Empfehlungen zu aktualisieren. Die Intervention simuliert die reale Nutzung von KI-Tools für persönliche Gesundheitsentscheidungen
Aktiver Komparator: Laien-Suchmaschinen-Gruppe
Nachdem die Teilnehmer zunächst eine klinische Diagnose- und Triage-Frage ohne die Verwendung von Tools beantwortet hatten, wurden sie aufgefordert, eine Suchmaschine zu verwenden, um Gesundheitsinformationen abzurufen, und dann dieselbe Frage erneut zu beantworten
Teilnehmer in dieser Gruppe verwendeten Mainstream-Internetsuchmaschinen (z.B. Baidu, Google, Bing), um nach Informationen über das klinische Vignette zu suchen, nachdem sie anfängliche diagnostische und Triage-Entscheidungen getroffen hatten. Sie durften frei suchen, aber es war ihnen nicht erlaubt, einen benannten KI-Chatbot oder eine große Sprachmodellplattform zu verwenden. Diese Gruppe repräsentiert typisches selbstgesteuertes Online-Gesundheitsinformationssuchverhalten.

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Top-3-Diagnosegenauigkeit
Zeitfenster: Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)
Das primäre Diagnoseergebnis wurde als der Anteil der Teilnehmer definiert, die nach der Verwendung des zugewiesenen Tools (LLM oder Suchmaschine) die richtige Diagnose in ihren Top drei Differentialdiagnosen aufgenommen hatten. Die Genauigkeit wurde für jede der 48 klinischen Vignetten bewertet und über alle Teilnehmer in jeder Gruppe aggregiert.
Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)
Triage-Genauigkeit (4-Klasse exakte Übereinstimmung)
Zeitfenster: Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)
Die Triage-Genauigkeit wurde definiert als der Anteil der Teilnehmer, die die korrekte Triage-Stufe (Notfallversorgung, innerhalb eines Tages, innerhalb einer Woche oder Selbstversorgung) auswählten, die mit dem Referenzstandard übereinstimmte. Es gab 12 Vignetten pro Triage-Kategorie.
Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)

Sekundäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Top-1-Diagnosegenauigkeit
Zeitfenster: Unmittelbar nach der Intervention (innerhalb derselben Befragungssitzung)
Der Anteil der Teilnehmer, die nach Verwendung des zugewiesenen Tools die korrekte Diagnose als ihre oberste (erste) Diagnose ausgewählt haben. Dies misst die Genauigkeit der endgültigen Diagnosebeurteilung von Laien.
Unmittelbar nach der Intervention (innerhalb derselben Befragungssitzung)
Triage-Genauigkeit (2-Klassen-Binärübereinstimmung)
Zeitfenster: Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)
Unmittelbar nach der Intervention (innerhalb derselben Umfragesitzung)

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Ermittler

  • Hauptermittler: Chenxi Liu, Huazhong University of Science and Technology

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Tatsächlich)

27. April 2025

Primärer Abschluss (Tatsächlich)

1. Juli 2025

Studienabschluss (Tatsächlich)

1. Juli 2025

Studienanmeldedaten

Zuerst eingereicht

17. November 2025

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

25. November 2025

Zuerst gepostet (Tatsächlich)

26. November 2025

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

26. November 2025

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

25. November 2025

Zuletzt verifiziert

1. Oktober 2025

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Andere Studien-ID-Nummern

  • JCYJ20240813115806009

Plan für individuelle Teilnehmerdaten (IPD)

Planen Sie, individuelle Teilnehmerdaten (IPD) zu teilen?

NEIN

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur Vignettenbasierte Intervention

Klinische Studien zur KI-gestützte Gesundheitsinformationssuche

Abonnieren