Denne side blev automatisk oversat, og nøjagtigheden af oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Diagnostic Accuracy of GPT-4o and Claude 4.6 Sonnet in Turkish ED Anamnesis Notes (LLM-ED-DX-TR)

22. juni 2026 opdateret af: Emir Ünal, Marmara University Pendik Training and Research Hospital

Diagnostic Accuracy of Large Language Models From Emergency Department Anamnesis Notes: A Comparison of GPT-4o and Claude 4.6 Sonnet With Emergency Medicine Specialists

This retrospective diagnostic accuracy study evaluates the ability of two large language models (LLMs) - GPT-4o (gpt-4o-2024-11-20; OpenAI) and Claude 4.6 Sonnet (claude-sonnet-4-6; Anthropic) - to generate correct diagnoses from anonymized Turkish-language emergency department (ED) anamnesis notes, and compares their performance with the diagnosis entered by the treating emergency physician. A consensus gold standard is established by three independent board-certified emergency medicine specialists who blindly review each note and vote on the primary diagnosis using ICD-10 three-character codes; the majority vote (at least 2 of 3 specialists agreeing) constitutes the reference standard. Both LLMs are evaluated using a standardized zero-shot direct prompting strategy (temperature=0, stateless API sessions). The primary outcome is diagnostic accuracy (proportion of ICD-10 chapter-level matches) and Cohen's kappa for each LLM against the gold standard. Secondary outcomes include top-3 accuracy, treating physician accuracy, inter-model agreement, and subgroup analyses by ESI triage level and ICD-10 chapter. Inter-rater reliability among the three specialists is quantified using Fleiss' kappa. Analyses are performed in Jamovi. This study represents the first evaluation of LLM diagnostic accuracy using Turkish-language clinical notes and the first to benchmark LLM performance against an independent three-specialist majority-vote gold standard rather than against the treating physician's own diagnosis.

Studieoversigt

Status

Rekruttering

Betingelser

Detaljeret beskrivelse

STUDY DESIGN: Retrospective diagnostic accuracy study, STARD-AI 2025 reporting, single center, cohort design.

AI INDEX TESTS: (1) GPT-4o (model version gpt-4o-2024-11-20; OpenAI API). (2) Claude 4.6 Sonnet (model version claude-sonnet-4-6; Anthropic API). Both accessed via Python (Google Colab). Temperature=0 for reproducibility. Zero-shot, stateless sessions - no cross-case context. No task-specific fine-tuning or additional training applied; models used as-is via API.

MODEL INTERPRETABILITY: Model interpretability analyses (such as SHAP, Grad-CAM, or layer-attribute visualizations) are not applicable to this study. Because GPT-4o and Claude 4.6 Sonnet are accessed as black-box models through proprietary, closed-source commercial APIs, internal model weights, gradients, and attention architectures are structurally inaccessible for post-hoc interpretability computations.

REFERENCE STANDARD: Three board-certified emergency medicine specialists independently evaluate each anonymized note, blinded to the original physician diagnosis and to each other. Primary diagnosis assigned by at least 2/3 specialists (majority vote) constitutes the gold standard. A 5-case calibration session precedes the main evaluation.

DATA PRIVACY: All anamnesis notes are fully de-identified (name, ID number, date of birth, physician name removed) prior to processing. De-identified notes are stored in a password-protected encrypted database. Only de-identified text is transmitted to LLM APIs - no personal health data. Compliant with Turkish Personal Data Protection Law (KVKK No. 6698).

PATIENT AND PUBLIC INVOLVEMENT: Not applicable. This retrospective study uses fully anonymized existing records; no patient or public involvement in design or conduct.

DATA SHARING: Anonymized dataset will be shared via Zenodo upon article acceptance. Statistical analysis code (Jamovi project files and Python prompt scripts) will be available on GitHub.

Undersøgelsestype

Observationel

Tilmelding (Anslået)

600

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiekontakt

Navn: Emir Ünal, Assistant Professor
Telefonnummer: +905327766010
E-mail: emirunal@gmail.com

Undersøgelse Kontakt Backup

Navn: Emir Unal, Assistant Professor
E-mail: emirunal@gmail.com

Studiesteder

Tyrkiet (Türkiye)
- Istanbul
  - Istanbul, Istanbul, Tyrkiet (Türkiye), 34899
    - Rekruttering
    - Marmara University Pendik Training and Research Hospital
    - Kontakt:
      
      Emir ünal
      
      E-mail: emirunal@gmail.com

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

Voksen
Ældre voksen

Tager imod sunde frivillige

Ingen

Prøveudtagningsmetode

Ikke-sandsynlighedsprøve

Studiebefolkning

The study population comprises consecutive adult patients (aged 18 years and older) who presented to the emergency department of a tertiary care training and research hospital and had their encounters fully documented in the hospital information system (HBYS). Eligible individuals must have a complete electronic anamnesis note containing the chief complaint, history of present illness, and clinical presentation, alongside a definitive primary ICD-10 diagnosis finalized by the treating emergency physician at file closure. The population excludes pediatric cases, patients triaged to high-acuity resuscitation areas (ESI level 1), and clinical notes with fewer than 50 words or insufficient clinical content.

Beskrivelse

INCLUSION CRITERIA:

Adult patients (aged 18 years and older) presenting to the emergency department.
Complete electronic health record available in the hospital information system (HBYS) containing a detailed anamnesis note with chief complaint, symptom duration, associated symptoms, and relevant medical history.
A definitive primary diagnosis recorded by the treating emergency physician using ICD-10 codes at the time of patient file closure.

EXCLUSION CRITERIA:

Emergency department anamnesis notes containing fewer than 50 words or completely lacking substantive clinical content[cite: 1].
Pediatric cases (age under 18 years)[cite: 1].
Patients critically ill and triaged to high-acuity resuscitation areas (Emergency Severity Index [ESI] level 1)[cite: 1].
Clinical notes containing residual identifying information that cannot be fully de-identified, preventing compliance with data privacy regulations[cite: 1].
Non-independent clinical notes consisting solely of a brief cross-reference to a prior hospital visit without a new history entry[cite: 1].

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Antal grupper/kohorter

Kohorter og interventioner

Gruppe / kohorte
Emergency Department Patient Cohort Consecutive adult patients presenting to the emergency department with a fully documented electronic anamnesis note and a definitive primary ICD-10 diagnosis

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
Diagnostic Accuracy of GPT-4o for ICD-10 Chapter-Level Diagnosis Tidsramme: At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).	Proportion of cases in which GPT-4o primary (rank 1) diagnosis matches the 3-specialist majority-vote gold standard at the ICD-10 chapter level (22 categories). Range: 0 to 1.00.	At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).
Diagnostic Accuracy of Claude 4.6 Sonnet for ICD-10 Chapter-Level Diagnosis Tidsramme: At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).	Proportion of cases in which Claude 4.6 Sonnet primary (rank 1) diagnosis matches the 3-specialist majority-vote gold standard at the ICD-10 chapter level (22 categories). Range: 0 to 1.00.	At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).

Sekundære resultatmål

Resultatmål	Foranstaltningsbeskrivelse	Tidsramme
Cohen's Kappa Between GPT-4o Primary Diagnosis and Gold Standard Tidsramme: At the time of algorithmic evaluation (June-July 2026)	Kappa coefficient measuring agreement between GPT-4o rank-1 ICD-10 chapter and the 3-specialist gold standard . Interpreted per Landis & Koch (1977): <=0.20 slight; 0.21-0.40 fair; 0.41-0.60 moderate; 0.61-0.80 substantial; >0.80 almost perfect . Range: -1.00 to 1.00 .	At the time of algorithmic evaluation (June-July 2026)
Cohen's Kappa Between Claude 4.6 Sonnet Primary Diagnosis and Gold Standard Tidsramme: At the time of algorithmic evaluation (June-July 2026)	appa coefficient measuring agreement between Claude 4.6 Sonnet rank-1 ICD-10 chapter and the 3-specialist gold standard . Interpreted per Landis & Koch (1977): <=0.20 slight; 0.21-0.40 fair; 0.41-0.60 moderate; 0.61-0.80 substantial; >0.80 almost perfect . Range: -1.00 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Top-3 Diagnostic Accuracy of GPT-4o Tidsramme: At the time of algorithmic evaluation (June-July 2026)	Proportion of cases in which the 3-specialist gold standard diagnosis appears within GPT-4o's ranked list of three differential diagnoses . Range: 0 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Top-3 Diagnostic Accuracy of Claude 4.6 Sonnet Tidsramme: At the time of algorithmic evaluation (June-July 2026)	Proportion of cases in which the 3-specialist gold standard diagnosis appears within Claude 4.6 Sonnet's ranked list of three differential diagnoses[cite: 1]. Range: 0 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Treating Physician Diagnostic Accuracy Against Gold Standard Tidsramme: At the time of the original clinical encounter (retrospective data spanning August-December 2025)	Proportion of cases in which the ICD-10 code entered by the treating emergency physician at file closure matches the 3-specialist majority-vote gold standard at the chapter level[cite: 1]. Range: 0 to 1.00	At the time of the original clinical encounter (retrospective data spanning August-December 2025)

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Sponsor

Marmara University Pendik Training and Research Hospital

Efterforskere

Ledende efterforsker: Emir Ünal, Marmara University

Publikationer og nyttige links

Den person, der er ansvarlig for at indtaste oplysninger om undersøgelsen, leverer frivilligt disse publikationer. Disse kan handle om alt relateret til undersøgelsen.

Generelle publikationer

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Anslået)

1. juni 2026

Primær færdiggørelse (Anslået)

1. juli 2026

Studieafslutning (Anslået)

1. oktober 2026

Datoer for studieregistrering

Først indsendt

3. juni 2026

Først indsendt, der opfyldte QC-kriterier

3. juni 2026

Først opslået (Faktiske)

8. juni 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

25. juni 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

22. juni 2026

Sidst verificeret

1. juni 2026

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Large Language Model; GPT-4o; Claude 4.6 Sonnet; ICD-10; Clinical Coding; Turkish; Emergency Department; Diagnostic Accuracy; STARD; STARD-AI

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

09.2026.26-0514

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Akut medicin

Akdeniz University Hospital

Rekruttering

Bispectral Index and First-Pass Intubation

Emergency Airway Management

Tyrkiet (Türkiye)
Akdeniz University Hospital

Afsluttet

The Airway Pressures During Bag-Valve-Mask Ventilation

Emergency Airway Management | Gastric Inflation Risk During Bag-Valve-Mask Ventilation | Breathing Emergency

Tyrkiet (Türkiye)
Hospital Israelita Albert Einstein

Afsluttet

Virkningen af en telekonsultation udført under ambulancens forskydning

Patienter Emergency On-site Care ved Mobile Emergency Unit

Brasilien
Insel Gruppe AG, University Hospital Bern
Gaslini Children's Hospital

Tilmelding efter invitation

Sammenligning af Neck Rescue-adgang (eFONA)

Anæstesi | Trakeostomi komplikation | Emergency Front of Neck Airway hos børn

Schweiz
RWTH Aachen University

Afsluttet

Implementeringsstrategi og systemiske effekter af rutinemæssig telemedicinsk pleje i præhospital akutmedicin

Brug af telemedicin | Brug af telekonsultation | Emergency Medical Service Missions
Central Hospital, Nancy, France
agence régionale de santé Grand Est; Dispositif d'appui à la coordination...

Afsluttet

Evaluation of a Case-management Program for Frequent Emergency Department Users (DAUM)

Hyppige brugere af Emergency Department (FUED'er)

Frankrig
University Children's Hospital, Zurich

Afsluttet

En modificeret kanintræningsmodel til etablering af en nødluftvej foran i nakken hos børn

Emergency Front of Neck Airway hos børn

Schweiz
Central Denmark Region

Afsluttet

Afsendelse af nødopkald ved hjælp af videostreaming sammenlignet med traditionel telefonkommunikation (CAM-VISION)

Emergency Medical Dispatch Center | Videostreaming | Nødopkald | Præhospital akutmedicin

Danmark
University of Lausanne Hospitals

Ukendt

Implementering af en sagsbehandlingsintervention for hyppige brugere af akutafdelingen i det fransktalende Schweiz (I-CaM)

Hyppige brugere af Emergency Department (FUED'er)

Schweiz
Isfahan University of Medical Sciences

Ikke rekrutterer endnu

3D Eye Movement Simulator til medicinsk uddannelse

Uddannelse | Uddannelse, Medicin | Uddannelse, Medicin, Bachelor

Diagnostic Accuracy of GPT-4o and Claude 4.6 Sonnet in Turkish ED Anamnesis Notes (LLM-ED-DX-TR)

Diagnostic Accuracy of Large Language Models From Emergency Department Anamnesis Notes: A Comparison of GPT-4o and Claude 4.6 Sonnet With Emergency Medicine Specialists

Studieoversigt

Status

Betingelser

Detaljeret beskrivelse

Undersøgelsestype

Tilmelding (Anslået)

Kontakter og lokationer

Studiekontakt

Undersøgelse Kontakt Backup

Studiesteder

Deltagelseskriterier

Berettigelseskriterier

Aldre berettiget til at studere

Tager imod sunde frivillige

Prøveudtagningsmetode

Studiebefolkning

Beskrivelse

Studieplan

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Antal grupper/kohorter

Kohorter og interventioner

Gruppe / kohorte

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Sekundære resultatmål

Resultatmål

Foranstaltningsbeskrivelse

Tidsramme

Samarbejdspartnere og efterforskere

Sponsor

Efterforskere

Publikationer og nyttige links

Generelle publikationer

Datoer for undersøgelser

Studer store datoer

Studiestart (Anslået)

Primær færdiggørelse (Anslået)

Studieafslutning (Anslået)

Datoer for studieregistrering

Først indsendt

Først indsendt, der opfyldte QC-kriterier

Først opslået (Faktiske)

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

Sidst verificeret

Mere information

Begreber relateret til denne undersøgelse

Nøgleord

Yderligere relevante MeSH-vilkår

Andre undersøgelses-id-numre

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Studerer et amerikansk FDA-reguleret enhedsprodukt

Kliniske forsøg med Akut medicin

Søg i lignende forsøg

Sponsorer og samarbejdspartnere

Medicinske tilstande

Narkotikainterventioner

CROs by country

CROs in Germany

Betingelser

Sjældne sygdomme

Narkotikainterventioner

Kosttilskud

Sponsor / samarbejdspartnere

Placeringer