Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Diagnostic Accuracy of GPT-4o and Claude 4.6 Sonnet in Turkish ED Anamnesis Notes (LLM-ED-DX-TR)

22 giugno 2026 aggiornato da: Emir Ünal, Marmara University Pendik Training and Research Hospital

Diagnostic Accuracy of Large Language Models From Emergency Department Anamnesis Notes: A Comparison of GPT-4o and Claude 4.6 Sonnet With Emergency Medicine Specialists

This retrospective diagnostic accuracy study evaluates the ability of two large language models (LLMs) - GPT-4o (gpt-4o-2024-11-20; OpenAI) and Claude 4.6 Sonnet (claude-sonnet-4-6; Anthropic) - to generate correct diagnoses from anonymized Turkish-language emergency department (ED) anamnesis notes, and compares their performance with the diagnosis entered by the treating emergency physician. A consensus gold standard is established by three independent board-certified emergency medicine specialists who blindly review each note and vote on the primary diagnosis using ICD-10 three-character codes; the majority vote (at least 2 of 3 specialists agreeing) constitutes the reference standard. Both LLMs are evaluated using a standardized zero-shot direct prompting strategy (temperature=0, stateless API sessions). The primary outcome is diagnostic accuracy (proportion of ICD-10 chapter-level matches) and Cohen's kappa for each LLM against the gold standard. Secondary outcomes include top-3 accuracy, treating physician accuracy, inter-model agreement, and subgroup analyses by ESI triage level and ICD-10 chapter. Inter-rater reliability among the three specialists is quantified using Fleiss' kappa. Analyses are performed in Jamovi. This study represents the first evaluation of LLM diagnostic accuracy using Turkish-language clinical notes and the first to benchmark LLM performance against an independent three-specialist majority-vote gold standard rather than against the treating physician's own diagnosis.

Panoramica dello studio

Stato

Reclutamento

Condizioni

Descrizione dettagliata

STUDY DESIGN: Retrospective diagnostic accuracy study, STARD-AI 2025 reporting, single center, cohort design.

AI INDEX TESTS: (1) GPT-4o (model version gpt-4o-2024-11-20; OpenAI API). (2) Claude 4.6 Sonnet (model version claude-sonnet-4-6; Anthropic API). Both accessed via Python (Google Colab). Temperature=0 for reproducibility. Zero-shot, stateless sessions - no cross-case context. No task-specific fine-tuning or additional training applied; models used as-is via API.

MODEL INTERPRETABILITY: Model interpretability analyses (such as SHAP, Grad-CAM, or layer-attribute visualizations) are not applicable to this study. Because GPT-4o and Claude 4.6 Sonnet are accessed as black-box models through proprietary, closed-source commercial APIs, internal model weights, gradients, and attention architectures are structurally inaccessible for post-hoc interpretability computations.

REFERENCE STANDARD: Three board-certified emergency medicine specialists independently evaluate each anonymized note, blinded to the original physician diagnosis and to each other. Primary diagnosis assigned by at least 2/3 specialists (majority vote) constitutes the gold standard. A 5-case calibration session precedes the main evaluation.

DATA PRIVACY: All anamnesis notes are fully de-identified (name, ID number, date of birth, physician name removed) prior to processing. De-identified notes are stored in a password-protected encrypted database. Only de-identified text is transmitted to LLM APIs - no personal health data. Compliant with Turkish Personal Data Protection Law (KVKK No. 6698).

PATIENT AND PUBLIC INVOLVEMENT: Not applicable. This retrospective study uses fully anonymized existing records; no patient or public involvement in design or conduct.

DATA SHARING: Anonymized dataset will be shared via Zenodo upon article acceptance. Statistical analysis code (Jamovi project files and Python prompt scripts) will be available on GitHub.

Tipo di studio

Osservativo

Iscrizione (Stimato)

600

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Contatto studio

Nome: Emir Ünal, Assistant Professor
Numero di telefono: +905327766010
Email: emirunal@gmail.com

Backup dei contatti dello studio

Nome: Emir Unal, Assistant Professor
Email: emirunal@gmail.com

Luoghi di studio

Turchia (Türkiye)
- Istanbul
  - Istanbul, Istanbul, Turchia (Türkiye), 34899
    - Reclutamento
    - Marmara University Pendik Training and Research Hospital
    - Contatto:
      
      Emir ünal
      
      Email: emirunal@gmail.com

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

Adulto
Adulto più anziano

Accetta volontari sani

Metodo di campionamento

Campione non probabilistico

Popolazione di studio

The study population comprises consecutive adult patients (aged 18 years and older) who presented to the emergency department of a tertiary care training and research hospital and had their encounters fully documented in the hospital information system (HBYS). Eligible individuals must have a complete electronic anamnesis note containing the chief complaint, history of present illness, and clinical presentation, alongside a definitive primary ICD-10 diagnosis finalized by the treating emergency physician at file closure. The population excludes pediatric cases, patients triaged to high-acuity resuscitation areas (ESI level 1), and clinical notes with fewer than 50 words or insufficient clinical content.

Descrizione

INCLUSION CRITERIA:

Adult patients (aged 18 years and older) presenting to the emergency department.
Complete electronic health record available in the hospital information system (HBYS) containing a detailed anamnesis note with chief complaint, symptom duration, associated symptoms, and relevant medical history.
A definitive primary diagnosis recorded by the treating emergency physician using ICD-10 codes at the time of patient file closure.

EXCLUSION CRITERIA:

Emergency department anamnesis notes containing fewer than 50 words or completely lacking substantive clinical content[cite: 1].
Pediatric cases (age under 18 years)[cite: 1].
Patients critically ill and triaged to high-acuity resuscitation areas (Emergency Severity Index [ESI] level 1)[cite: 1].
Clinical notes containing residual identifying information that cannot be fully de-identified, preventing compliance with data privacy regulations[cite: 1].
Non-independent clinical notes consisting solely of a brief cross-reference to a prior hospital visit without a new history entry[cite: 1].

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

Numero di gruppi/coorti

Coorti e interventi

Gruppo / Coorte
Emergency Department Patient Cohort Consecutive adult patients presenting to the emergency department with a fully documented electronic anamnesis note and a definitive primary ICD-10 diagnosis

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato	Misura Descrizione	Lasso di tempo
Diagnostic Accuracy of GPT-4o for ICD-10 Chapter-Level Diagnosis Lasso di tempo: At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).	Proportion of cases in which GPT-4o primary (rank 1) diagnosis matches the 3-specialist majority-vote gold standard at the ICD-10 chapter level (22 categories). Range: 0 to 1.00.	At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).
Diagnostic Accuracy of Claude 4.6 Sonnet for ICD-10 Chapter-Level Diagnosis Lasso di tempo: At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).	Proportion of cases in which Claude 4.6 Sonnet primary (rank 1) diagnosis matches the 3-specialist majority-vote gold standard at the ICD-10 chapter level (22 categories). Range: 0 to 1.00.	At the time of single-session algorithmic evaluation (each case evaluated once following data extraction in June 2026).

Misure di risultato secondarie

Misura del risultato	Misura Descrizione	Lasso di tempo
Cohen's Kappa Between GPT-4o Primary Diagnosis and Gold Standard Lasso di tempo: At the time of algorithmic evaluation (June-July 2026)	Kappa coefficient measuring agreement between GPT-4o rank-1 ICD-10 chapter and the 3-specialist gold standard . Interpreted per Landis & Koch (1977): <=0.20 slight; 0.21-0.40 fair; 0.41-0.60 moderate; 0.61-0.80 substantial; >0.80 almost perfect . Range: -1.00 to 1.00 .	At the time of algorithmic evaluation (June-July 2026)
Cohen's Kappa Between Claude 4.6 Sonnet Primary Diagnosis and Gold Standard Lasso di tempo: At the time of algorithmic evaluation (June-July 2026)	appa coefficient measuring agreement between Claude 4.6 Sonnet rank-1 ICD-10 chapter and the 3-specialist gold standard . Interpreted per Landis & Koch (1977): <=0.20 slight; 0.21-0.40 fair; 0.41-0.60 moderate; 0.61-0.80 substantial; >0.80 almost perfect . Range: -1.00 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Top-3 Diagnostic Accuracy of GPT-4o Lasso di tempo: At the time of algorithmic evaluation (June-July 2026)	Proportion of cases in which the 3-specialist gold standard diagnosis appears within GPT-4o's ranked list of three differential diagnoses . Range: 0 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Top-3 Diagnostic Accuracy of Claude 4.6 Sonnet Lasso di tempo: At the time of algorithmic evaluation (June-July 2026)	Proportion of cases in which the 3-specialist gold standard diagnosis appears within Claude 4.6 Sonnet's ranked list of three differential diagnoses[cite: 1]. Range: 0 to 1.00	At the time of algorithmic evaluation (June-July 2026)
Treating Physician Diagnostic Accuracy Against Gold Standard Lasso di tempo: At the time of the original clinical encounter (retrospective data spanning August-December 2025)	Proportion of cases in which the ICD-10 code entered by the treating emergency physician at file closure matches the 3-specialist majority-vote gold standard at the chapter level[cite: 1]. Range: 0 to 1.00	At the time of the original clinical encounter (retrospective data spanning August-December 2025)

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Sponsor

Marmara University Pendik Training and Research Hospital

Investigatori

Investigatore principale: Emir Ünal, Marmara University

Pubblicazioni e link utili

La persona responsabile dell'inserimento delle informazioni sullo studio fornisce volontariamente queste pubblicazioni. Questi possono riguardare qualsiasi cosa relativa allo studio.

Pubblicazioni generali

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Stimato)

1 giugno 2026

Completamento primario (Stimato)

1 luglio 2026

Completamento dello studio (Stimato)

1 ottobre 2026

Date di iscrizione allo studio

Primo inviato

3 giugno 2026

Primo inviato che soddisfa i criteri di controllo qualità

3 giugno 2026

Primo Inserito (Effettivo)

8 giugno 2026

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

25 giugno 2026

Ultimo aggiornamento inviato che soddisfa i criteri QC

22 giugno 2026

Ultimo verificato

1 giugno 2026

Maggiori informazioni

Termini relativi a questo studio

Parole chiave

Large Language Model; GPT-4o; Claude 4.6 Sonnet; ICD-10; Clinical Coding; Turkish; Emergency Department; Diagnostic Accuracy; STARD; STARD-AI

Termini MeSH pertinenti aggiuntivi

Altri numeri di identificazione dello studio

09.2026.26-0514

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Diagnostic Accuracy of GPT-4o and Claude 4.6 Sonnet in Turkish ED Anamnesis Notes (LLM-ED-DX-TR)

Diagnostic Accuracy of Large Language Models From Emergency Department Anamnesis Notes: A Comparison of GPT-4o and Claude 4.6 Sonnet With Emergency Medicine Specialists

Panoramica dello studio

Stato

Condizioni

Descrizione dettagliata

Tipo di studio

Iscrizione (Stimato)

Contatti e Sedi

Contatto studio

Backup dei contatti dello studio

Luoghi di studio

Criteri di partecipazione

Criteri di ammissibilità

Età idonea allo studio

Accetta volontari sani

Metodo di campionamento

Popolazione di studio

Descrizione

Piano di studio

Come è strutturato lo studio?

Dettagli di progettazione

Numero di gruppi/coorti

Coorti e interventi

Gruppo / Coorte

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato

Misura Descrizione

Lasso di tempo

Misure di risultato secondarie

Misura del risultato

Misura Descrizione

Lasso di tempo

Collaboratori e investigatori

Sponsor

Investigatori

Pubblicazioni e link utili

Pubblicazioni generali

Studiare le date dei record

Studia le date principali

Inizio studio (Stimato)

Completamento primario (Stimato)

Completamento dello studio (Stimato)

Date di iscrizione allo studio

Primo inviato

Primo inviato che soddisfa i criteri di controllo qualità

Primo Inserito (Effettivo)

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

Ultimo aggiornamento inviato che soddisfa i criteri QC

Ultimo verificato

Maggiori informazioni

Termini relativi a questo studio

Parole chiave

Termini MeSH pertinenti aggiuntivi

Altri numeri di identificazione dello studio

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

Cerca prove simili

Sponsor e collaboratori

Condizioni mediche

Interventi farmacologici

CROs by country

CROs in China

Condizioni

Malattie rare

Interventi farmacologici

Supplementi dietetici

Sponsor / Collaboratori

Sedi