Diese Seite wurde automatisch übersetzt und die Genauigkeit der Übersetzung wird nicht garantiert. Bitte wende dich an die englische Version für einen Quelltext.

Reasoning Enrichment With Feedback From IA in NEphrology Trial (REFINe)

12. Januar 2026 aktualisiert von: Aghiles.HAMROUN, University Hospital, Lille

Reasoning Enhancement With Feedback From a Generative AI in Nephrology (REFINe): Eine randomisierte Evaluierung der Unterstützung durch generative KI bei der Nephrologie-Diagnose

Das Ziel dieser klinischen Studie ist zu untersuchen, wie künstliche Intelligenz (KI) Ärzten bei der Diagnosestellung in der Nierenmedizin helfen kann. Die Forscher möchten herausfinden, ob ein KI-Werkzeug namens großes Sprachmodell (LLM) Ärzten dabei helfen kann, öfter die richtige Diagnose zu wählen und sich in ihren Antworten sicherer zu fühlen.

Vor Beginn der Studie testete das Forschungsteam mehrere KI-Modelle und wählte eines der leistungsstärksten aus, ein GPT-5-Klasse-Modell, das auf hohen Denkaufwand eingestellt ist.

Die Hauptfragen, die diese Studie beantworten soll, sind:

  1. Stellen Ärzte mehr korrekte Diagnosen, wenn sie KI-Vorschläge sehen können?
  2. Verändert das Sehen von KI-Vorschlägen, wie sicher sich Ärzte bei ihrer Diagnose fühlen?

Forscher werden Ärzte, die KI-Vorschläge erhalten, mit Ärzten vergleichen, die keine KI-Vorschläge erhalten, um zu sehen, wie die KI Genauigkeit, Sicherheit und Entscheidungsfindung beeinflusst.

Die Teilnehmer werden bis zu 10 Online-Klinikfälle bearbeiten. Für jeden Fall werden sie:

  1. Ein kurzes medizinisches Szenario lesen
  2. Bis zu drei mögliche Diagnosen vorschlagen

(Falls in der KI-Gruppe) Die KI-Vorschläge überprüfen und entscheiden, ob sie ihre Antwort ändern möchten

Die Studie wird auch untersuchen, wie lange die Teilnehmer für die Beantwortung jedes Falls benötigen und wie die Leistung der KI im Vergleich zu den menschlichen Antworten abschneidet.

Studienübersicht

Detaillierte Beschreibung

Diese Studie bewertet, ob die Bereitstellung von Echtzeit-Diagnosevorschlägen für Kliniker durch ein hochgradig schlussfolgerndes großes Sprachmodell (GPT-5) die diagnostische Genauigkeit, das Vertrauen und die Effizienz bei der Lösung nephrologischer klinischer Vignetten verbessert. Vor der Auswahl des Modells für die Studie hat das Forschungsteam mehrere hochmoderne Modelle anhand eines Pilotdatensatzes nephrologischer Fälle verglichen, darunter: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5 und Magistral-Medium-2509. GPT-5 (hochgradig schlussfolgernd) zeigte die höchste diagnostische Leistung, Stabilität und Interpretierbarkeit und wurde als KI-System für den Interventionsarm ausgewählt.

Teilnehmer sind Medizinstudenten, Assistenzärzte, Fachärzte in Weiterbildung und praktizierende Ärzte. Nach der Erstellung eines Kontos füllen die Teilnehmer einen demografischen Fragebogen (Fachgebiet, Berufserfahrung, Praxistyp, Altersgruppe, KI-Vertrautheit) aus und müssen der Nutzung dieser Daten für Forschungszwecke ausdrücklich zustimmen, bevor sie auf die Vignetten zugreifen. Es werden keine direkt identifizierenden Informationen erhoben.

Die Teilnehmer werden (mit Schichtung nach Berufsstatus) entweder dem KI-unterstützten Arm oder dem Kontrollarm randomisiert zugeteilt. Jeder Teilnehmer erhält 10 nephrologische Vignetten auf Französisch oder Englisch und kann diese über mehrere Sitzungen hinweg bearbeiten. Sobald eine Vignette abgegeben wurde, kann sie nicht erneut aufgerufen werden („kein Zurückgehen“). Die Bearbeitungszeit pro Vignette wird automatisch aufgezeichnet.

Kontrollarm

Die Teilnehmer sehen jede Vignette und geben bis zu drei Diagnosen („Top-3“) an, gefolgt von einer Vertrauensbewertung (0-10).

KI-unterstützter Arm

Die Teilnehmer geben zunächst ohne KI-Unterstützung eine erste Top-3-Diagnose und Vertrauensbewertung an. Das System zeigt dann die Diagnosevorschläge von GPT-5 an, woraufhin die Teilnehmer ihre Diagnosen einmal überarbeiten können. Die Vignette ist nach der Abgabe gesperrt.

Die Studie erfasst:

  • Anfangs- und Enddiagnosen,
  • Vertrauensbewertungen vor und (falls zutreffend) nach KI-Vorschlägen,
  • Bearbeitungszeiten,
  • demografische Variablen der Teilnehmer,
  • und die eigenen diagnostischen Ausgaben des KI-Modells.

Eine teilweise Bearbeitung ist erlaubt; alle abgeschlossenen Vignetten fließen in die Analyse ein.

Primäre und sekundäre Endpunkte umfassen diagnostische Genauigkeit (Top-3 und Top-1), Genauigkeitsverbesserung vor vs. nach KI, Veränderungen des diagnostischen Vertrauens, KI-induzierte Diagnosefehler, Human-vs.-KI-Benchmarking, Effizienzmetriken der Bearbeitungszeit und den Anteil der zugewiesenen Vignetten, die abgeschlossen wurden.

Die primäre Analyse vergleicht die diagnostische Genauigkeit zwischen dem Kontrollarm (Ärzte allein) und dem experimentellen Arm (Ärzte mit KI-Unterstützung). Die Genauigkeit wird als binärer Endpunkt analysiert (richtige vs. falsche Diagnose). Da jeder Teilnehmer mehrere klinische Vignetten bewertet, wird die Genauigkeit mithilfe einer gemischten logistischen Regression mit einem festen Effekt für den Studienarm und zufälligen Achsenabschnitten für Teilnehmer und Vignette modelliert. Dieser Ansatz berücksichtigt Clusterbildung und unterschiedliche Schwierigkeitsgrade der Fälle. Der primäre Hypothesentest verwendet ein zweiseitiges α = 0,05. Effektstärken werden als Odds Ratios mit 95%-Konfidenzintervallen berichtet. Sekundäre Analysen untersuchen mithilfe von Interaktionstermen, ob die Genauigkeit je nach demografischen Faktoren (z. B. Erfahrungsniveau, Fachgebiet) variiert.

Da jeder Teilnehmer mehrere Vignetten bewertet, führte das Team auch simulationsbasierte Power-Analysen mit gemischten logistischen Regressionsmodellen mit zufälligen Achsenabschnitten für Teilnehmer und Vignette durch, wobei ein Intra-Teilnehmer-ICC von 0,10 angenommen wurde. Unter diesen Annahmen bietet eine Gesamtstichprobe von 100 Teilnehmern (50 pro Arm) mit 10 Vignetten pro Teilnehmer eine Power von >99 %, um eine klinisch bedeutsame Verbesserung der diagnostischen Genauigkeit zu erkennen. Die Forscher planen daher, insgesamt etwa 100 Teilnehmer einzuschließen.

Diese Studie zielt darauf ab, zu quantifizieren, ob KI-gestütztes Denken die diagnostische Leistung und Entscheidungsfindung von Klinikern bei der Bewertung komplexer nephrologischer Fälle wesentlich verbessert.

Studientyp

Interventionell

Einschreibung (Geschätzt)

100

Phase

  • Unzutreffend

Kontakte und Standorte

Dieser Abschnitt enthält die Kontaktdaten derjenigen, die die Studie durchführen, und Informationen darüber, wo diese Studie durchgeführt wird.

Studienkontakt

Studienorte

Teilnahmekriterien

Forscher suchen nach Personen, die einer bestimmten Beschreibung entsprechen, die als Auswahlkriterien bezeichnet werden. Einige Beispiele für diese Kriterien sind der allgemeine Gesundheitszustand einer Person oder frühere Behandlungen.

Zulassungskriterien

Studienberechtigtes Alter

  • Erwachsene
  • Älterer Erwachsener

Akzeptiert gesunde Freiwillige

Ja

Beschreibung

Einschlusskriterien:

Erwachsene im Alter von 18 Jahren oder älter.

Fähig, klinische Fallbeispiele auf Englisch oder Französisch zu lesen und zu beantworten.

Zugang zu einem Computer oder Smartphone mit Internetverbindung.

Erteilt online die informierte Einwilligung.

Von den Teilnehmern wird erwartet, dass sie mindestens über eine grundlegende medizinische Ausbildung verfügen (z.B. Medizinstudenten, Assistenzärzte, Fachärzte in Weiterbildung oder praktizierende Kliniker), obwohl keine formelle Überprüfung erforderlich ist.

Ausschlusskriterien:

Personen unter 18 Jahren.

Unfähigkeit, die Online-Studienverfahren abzuschließen.

Frühere Beteiligung am Design, der Entwicklung oder der Bewertung des in dieser Studie verwendeten KI-Systems.

Studienplan

Dieser Abschnitt enthält Einzelheiten zum Studienplan, einschließlich des Studiendesigns und der Messung der Studieninhalte.

Wie ist die Studie aufgebaut?

Designdetails

  • Hauptzweck: Diagnose
  • Zuteilung: Zufällig
  • Interventionsmodell: Parallele Zuordnung
  • Maskierung: Keine (Offenes Etikett)

Waffen und Interventionen

Teilnehmergruppe / Arm
Intervention / Behandlung
Experimental: Gruppe mit KI-Vorschlägen
Die Teilnehmer in diesem Arm bearbeiten dieselben klinischen Fallvignetten wie die Kontrollgruppe. Für jeden Fall erhalten sie eine von einem großen Sprachmodell (GPT-5, High-Reasoning-Konfiguration) generierte Diagnosevorschlag, der nach internen Benchmarking ausgewählt wurde. Die Teilnehmer können den KI-Vorschlag überprüfen, bevor sie ihre eigene endgültige diagnostische Antwort eingeben. Es werden keine zusätzlichen Informationen, Hinweise oder Schulungen bereitgestellt. Die Intervention besteht ausschließlich aus der Anzeige des KI-generierten Diagnosevorschlags während der Fallbearbeitungsaufgabe.
Diese Intervention besteht darin, während der klinischen Fallbearbeitungsaufgabe einen KI-generierten Diagnosevorschlag anzuzeigen. Nach dem Lesen jeder Vignette sehen die Teilnehmer den besten Diagnosevorschlag, der von einem großen Sprachmodell (GPT-5, Hochleistungskonfiguration) erzeugt wurde, der nach internen Benchmark-Tests ausgewählt wurde. Der KI-Vorschlag erscheint einmal pro Vignette und kann nicht erneut angefordert oder geändert werden. Die Teilnehmer können ihre Diagnoseantwort nach Betrachtung des Vorschlags überarbeiten, aber sie können später nicht zur Vignette zurückkehren. Es werden keine zusätzlichen Anleitungen, Coachings oder interaktiven Funktionen bereitgestellt.
Kein Eingriff: Gruppe ohne KI-Vorschläge
Die Teilnehmer in dieser Gruppe werden die klinischen Fallvignetten unabhängig und ohne KI-generierte Diagnosevorschläge bearbeiten. Sie werden jede Vignette lesen und ihre eigene Diagnose ausschließlich auf Grundlage der präsentierten Informationen stellen. Es werden keine externen Entscheidungshilfen oder zusätzliche Materialien bereitgestellt.

Was misst die Studie?

Primäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Endgültige diagnostische Genauigkeit (Top-3) mit vs ohne KI-Unterstützung
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Für jeden Teilnehmer: Anteil der Vignetten, bei denen die korrekte Hauptdiagnose in den drei besten Diagnosen des Teilnehmers enthalten ist. Vergleichen Sie die Genauigkeit der drei besten Diagnosen zwischen der KI-Gruppe (nach KI-Vorschlägen) und der Kontrollgruppe (ohne KI).

Prozentsatz der korrekt diagnostizierten Fälle (Top-3).

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Sekundäre Ergebnismessungen

Ergebnis Maßnahme
Maßnahmenbeschreibung
Zeitfenster
Endgültige diagnostische Genauigkeit (Top-1) mit vs ohne KI-Unterstützung
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Für jeden Teilnehmer Anteil der Vignetten, bei denen die korrekte Hauptdiagnose in den endgültigen Top-1-Diagnosen des Teilnehmers enthalten ist. Vergleichen Sie die endgültige Top-1-Genauigkeit zwischen dem KI-Arm (nach KI-Vorschlägen) und dem Kontrollarm (ohne KI). Prozentsatz der korrekt diagnostizierten Fälle (Top-1).
Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Veränderung der Top-3-Diagnosegenauigkeit vor vs. nach KI-Vorschlägen (nur KI-Arm)
Zeitfenster: Von der Beantwortung des ersten Vignettes bis zum Ende der Studie (bis zu 12 Monate).

Im KI-gestützten Arm geben die Teilnehmer zunächst eine erste Antwort (bis zu drei Diagnosen) ohne KI-Vorschläge, sehen dann KI-generierte Vorschläge und können ihre Antwort einmal überarbeiten; sie können später nicht mehr zu diesem Vignett zurückkehren. Für jeden Teilnehmer berechnen die Untersucher die Differenz in der Top-3-Genauigkeit zwischen den ersten und endgültigen Antworten über alle abgeschlossenen Vignetten hinweg.

Prozentpunktänderung in der Top-3-Diagnosegenauigkeit

Von der Beantwortung des ersten Vignettes bis zum Ende der Studie (bis zu 12 Monate).
Veränderung der Top-1-Diagnosegenauigkeit vor vs. nach KI-Vorschlägen (nur KI-Arm)
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Im KI-unterstützten Arm geben die Teilnehmer zunächst eine erste Antwort (bis zu drei Diagnosen) ohne KI-Vorschläge, sehen dann KI-generierte Vorschläge und können ihre Antwort einmal überarbeiten; sie können später nicht mehr auf diese Vignette zurückgreifen. Für jeden Teilnehmer berechnen die Untersucher die Differenz in der Top-1-Genauigkeit zwischen den ersten und endgültigen Antworten über alle abgeschlossenen Vignetten hinweg.

Prozentpunktveränderung in der Top-1-Diagnosegenauigkeit

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Diagnostische Zuversicht (0-10) vor KI-Vorschlägen: Kontrollgruppe vs KI-Gruppe
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Teilnehmer in beiden Armen bewerten ihr Vertrauen (Skala 0-10) in ihre Top-3-Diagnosevorschläge, bevor KI-Vorschläge gemacht werden.

Im KI-Arm ist dies die "vor-KI"-Bewertung. Im Kontrollarm ist dies die einzige Vertrauensbewertung (da keine KI gezeigt wird).

Die Forscher vergleichen das vor-KI-Vertrauen zwischen den Armen, aggregiert über alle abgeschlossenen Vignetten pro Teilnehmer.

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Finale diagnostische Sicherheit (0-10) nach KI-Empfehlungen: Kontrollgruppe vs. KI-Arm
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Endgültige diagnostische Sicherheit (Skala 0-10) für die Top-3-Diagnosevorschläge über alle abgeschlossenen Vignetten hinweg, verglichen zwischen den Studiengruppen.

In der KI-Gruppe ist dies die Bewertung der Sicherheit nach der KI-Unterstützung. In der Kontrollgruppe ist dies die gleiche Sicherheitsbewertung (Teilnehmer erhalten keine KI-Vorschläge).

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Änderung der Diagnosesicherheit (0–10) vor vs. nach KI-Vorschlägen (nur KI-Arm)
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Im KI-Arm geben die Teilnehmer Vertrauensbewertungen (Skala 0-10) für ihre Top-3-Diagnosen sowohl vor als auch nach der Anzeige von KI-Vorschlägen ab.

Für jeden Teilnehmer berechnen die Prüfer die innerhalb des Teilnehmers stattfindende Veränderung (nach KI minus vor KI) über alle abgeschlossenen Vignetten hinweg.

Veränderung des Vertrauensscores (Skala 0-10)

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
KI-bedingter Diagnosefehler (nur KI-Arm)
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Unter abgeschlossenen Vignetten, bei denen die anfängliche Top-1-Diagnose des Teilnehmers korrekt ist, der Anteil, bei dem die endgültige Top-1-Diagnose nach KI-Vorschlägen inkorrekt wird.
Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Änderung der Top-3-Diagnose nach KI-Vorschlägen (nur KI-Arm)
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Unter den abgeschlossenen Vignetten im KI-Arm der Anteil, bei dem sich die Top-3-Diagnose zwischen den Antworten vor und nach der KI unterscheidet.
Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Top-3-Diagnosegenauigkeit: Alle menschlichen Antworten vor KI vs. KI-Genauigkeit
Zeitfenster: Vom ersten beantworteten Vignette bis zum Studienende (bis zu 12 Monate).

Für jede Vignette wird die Top-3-Diagnosegenauigkeit der menschlichen Teilnehmer vor jeglichen KI-Vorschlägen (Kombination der Teilnehmer aus beiden Studienarmen in ihrer Vor-KI-Phase) mit der Top-3-Diagnosegenauigkeit des KI-Modells für dieselbe Vignette verglichen. Das berichtete Ergebnis ist die Genauigkeitsdifferenz, definiert als KI Top-3-Genauigkeit minus menschliche Vor-KI Top-3-Genauigkeit, ausgedrückt in Prozentpunkten und berechnet auf Vignettenebene über alle abgeschlossenen Vignetten.

Prozentpunktdifferenz in der Top-3-Diagnosegenauigkeit

Vom ersten beantworteten Vignette bis zum Studienende (bis zu 12 Monate).
Top-3-Diagnosegenauigkeit: Menschliche Endantworten nach KI vs. KI-Genauigkeit (nur KI-Arm)
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Für jede in der KI-gestützten Gruppe abgeschlossene Vignette wird die Top-3-Diagnosegenauigkeit der menschlichen Teilnehmer nach Betrachtung der KI-Vorschläge mit der Top-3-Diagnosegenauigkeit des KI-Modells verglichen.

(Top-3-Genauigkeit ist eine einzelne Messgröße) Das berichtete Ergebnis ist die Genauigkeitsdifferenz, definiert als KI-Top-3-Genauigkeit minus menschliche Top-3-Genauigkeit nach KI, ausgedrückt in Prozentpunkten und auf Vignettenebene über alle abgeschlossenen Vignetten in der KI-Gruppe berechnet.

Prozentpunktdifferenz in der Top-3-Diagnosegenauigkeit zwischen KI und Mensch

Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Abschlusszeit pro Vignette mit und ohne KI-Unterstützung
Zeitfenster: Von der Beantwortung des ersten Vignettenbeispiels bis zum Ende der Studie (bis zu 12 Monate).

Für jede Vignette zeichnet die Plattform die Zeit vom Öffnen der Vignette bis zur Einreichung der Antwort auf. In der Kontrollgruppe wird für jede Vignette eine einzelne Abschlusszeit aufgezeichnet. In der KI-unterstützten Gruppe wird die Abschlusszeit vor dem Anzeigen der KI-Vorschläge und erneut nach dem Anzeigen der KI-Vorschläge aufgezeichnet. Das Ergebnis berichtet über die Differenz in der Abschlusszeit zwischen den Studiengruppen, ausgedrückt in Sekunden und berechnet über alle abgeschlossenen Vignetten.

Sekunden (Unterschied in der Abschlusszeit)

Von der Beantwortung des ersten Vignettenbeispiels bis zum Ende der Studie (bis zu 12 Monate).
Anteil der zugewiesenen Vignetten, die abgeschlossen wurden
Zeitfenster: Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).
Für jeden Teilnehmer wird der Anteil der 10 Vignetten, die innerhalb des Studienzeitraums abgeschlossen wurden, zwischen den Armen verglichen.
Vom ersten beantworteten Vignette bis zum Ende der Studie (bis zu 12 Monate).

Mitarbeiter und Ermittler

Hier finden Sie Personen und Organisationen, die an dieser Studie beteiligt sind.

Studienaufzeichnungsdaten

Diese Daten verfolgen den Fortschritt der Übermittlung von Studienaufzeichnungen und zusammenfassenden Ergebnissen an ClinicalTrials.gov. Studienaufzeichnungen und gemeldete Ergebnisse werden von der National Library of Medicine (NLM) überprüft, um sicherzustellen, dass sie bestimmten Qualitätskontrollstandards entsprechen, bevor sie auf der öffentlichen Website veröffentlicht werden.

Haupttermine studieren

Studienbeginn (Tatsächlich)

20. November 2025

Primärer Abschluss (Geschätzt)

31. Oktober 2026

Studienabschluss (Geschätzt)

31. Dezember 2026

Studienanmeldedaten

Zuerst eingereicht

19. November 2025

Zuerst eingereicht, das die QC-Kriterien erfüllt hat

12. Januar 2026

Zuerst gepostet (Tatsächlich)

20. Januar 2026

Studienaufzeichnungsaktualisierungen

Letztes Update gepostet (Tatsächlich)

20. Januar 2026

Letztes eingereichtes Update, das die QC-Kriterien erfüllt

12. Januar 2026

Zuletzt verifiziert

1. Januar 2026

Mehr Informationen

Begriffe im Zusammenhang mit dieser Studie

Arzneimittel- und Geräteinformationen, Studienunterlagen

Studiert ein von der US-amerikanischen FDA reguliertes Arzneimittelprodukt

Nein

Studiert ein von der US-amerikanischen FDA reguliertes Geräteprodukt

Nein

Diese Informationen wurden ohne Änderungen direkt von der Website clinicaltrials.gov abgerufen. Wenn Sie Ihre Studiendaten ändern, entfernen oder aktualisieren möchten, wenden Sie sich bitte an register@clinicaltrials.gov. Sobald eine Änderung auf clinicaltrials.gov implementiert wird, wird diese automatisch auch auf unserer Website aktualisiert .

Klinische Studien zur KI-Vorschlag

Abonnieren