Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Den diagnostiske og triagekapacitet af samarbejde mellem lægfolk og store sprogmodeller i Kina

25. november 2025 opdateret af: Zhang Min, Huazhong University of Science and Technology

Den diagnostiske og triagekapacitet af samarbejde mellem lægfolk og store sprogmodeller: et nationalt prætest-posttest randomiseret kontrolleret eksperiment i Kina

Formålet med denne randomiserede kontrollerede undersøgelse er at evaluere store sprogmodellers rolle i at forbedre almindelige menneskers evne til selv at diagnosticere og prioritere almindelige sygdomme. De vigtigste spørgsmål, den søger at besvare, er:

  • Hjælper brugen af en LLM deltagerne med at foretage mere præcise selvdiagnoser og plejebeslutninger for almindelige sygdomme sammenlignet med deres første gæt uden hjælp?
  • Hvor meget bedre er det, når folk arbejder sammen med en LLM, sammenlignet med at bruge en almindelig søgemaskine, bruge LLM'en alene, eller hvordan læger ville beslutte? Forskere vil sammenligne deltagere, der tilfældigt blev tildelt enten LLM-gruppen (som bruger DeepSeek) eller søgemaskinegruppen, for at se, om LLM-assisterede tilgange fører til bedre kliniske vurderinger.

Deltagerne vil:

  • Læse en af 48 korte, realistiske sundhedsvignetter;
  • Foretage et indledende gæt om, hvad der kunne være galt, ved at opstille op til tre mulige årsager, rangeret fra mest til mindst sandsynlige, og vælge et plejeniveau: søg øjeblikkelig pleje, se en læge inden for en dag, se en læge inden for en uge eller håndtere det hjemme uden lægehjælp.
  • Bruge deres tildelte værktøj (enten DeepSeek eller en standard søgemaskine) til at slå information op og opdatere deres gæt og plejebeslutning;
  • Indsende deres endelige diagnose og plejevalg efter brug af værktøjet. Derudover evaluerede undersøgelsesteammen ydeevnen af fire andre AI-modeller (GPT-4o, GPT-o1, DeepSeek-v3 og DeepSeek-r1) og 33 erfarne praktiserende læger på de samme vignetter.

Studieoversigt

Undersøgelsestype

Interventionel

Tilmelding (Faktiske)

6360

Fase

  • Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiesteder

    • Hubei
      • Wuhan, Hubei, Kina
        • Tongji Medical College of Huazhong University of Science & Technology School of Medicine and Health Management

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

  • Voksen
  • Ældre voksen

Tager imod sunde frivillige

Ingen

Beskrivelse

Inklusionskriterier:

  • Alder 18 år eller ældre
  • Nuværende beboer i det kinesiske fastland
  • Historie med højkvalitetsdeltagelse i onlineundersøgelser på Credamo-platformen (historisk undersøgelsesacceptrate ≥ 80% og personlig kreditscore ≥ 70)

Eksklusionskriterier:

  • Ufuldstændige undersøgelsessvar
  • Fejl på indlejrede kvalitetskontrolpunkter
  • Utroværdigt kort gennemførelsestid (<180 sekunder for søgemaskinegruppe; <360 sekunder for LLM-gruppe)
  • Afgivelse af ikke-diagnostiske eller irrelevante svar (f.eks. "ukendt", "ved ikke")
  • Konsistent mønster af identiske svar på tværs af alle punkter

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

  • Primært formål: Sundhedstjenesteforskning
  • Tildeling: Randomiseret
  • Interventionel model: Parallel tildeling
  • Maskning: Enkelt

Våben og indgreb

Deltagergruppe / Arm
Intervention / Behandling
Eksperimentel: lægmand-LLM integreret gruppe
Efter først at have besvaret et klinisk diagnostisk og triagespørgsmål uden hjælp fra værktøjer, blev deltagerne bedt om at bruge en stor sprogmodel (Deepseek v3 eller r1) til at hente sundhedsoplysninger og derefter besvare det samme spørgsmål igen
Deltagerne i denne gruppe brugte en stor sprogmodel (DeepSeek) til at søge efter medicinsk information relateret til en klinisk vignet efter at have givet indledende diagnostiske og triage-beslutninger. De fik besked på at interagere frit med modellen for at indsamle indsigter og derefter opdatere deres diagnoser og triage-anbefalinger. Interventionen simulerer virkelig brug af AI-værktøjer til personlige sundhedsbeslutninger
Aktiv komparator: lægmand-søgemaskine gruppe
Efter først at have besvaret et klinisk diagnose- og triagespørgsmål uden brug af værktøjer, skulle deltagerne derefter bruge en søgemaskine til at hente sundhedsoplysninger og derefter besvare det samme spørgsmål igen
Deltagerne i denne gruppe brugte mainstream internet-søgemaskiner (f.eks. Baidu, Google, Bing) til at slå oplysninger om den kliniske vignet op efter at have truffet indledende diagnostiske og triage-beslutninger. De fik lov til at søge frit, men måtte ikke bruge nogen navngivet AI-chatbot eller platform for store sprogmodeller. Denne gruppe repræsenterer typisk selvstyret online søgning efter sundhedsoplysninger.

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Top-3 diagnostisk nøjagtighed
Tidsramme: Umiddelbart efter intervention (inden for samme undersøgelsessession)
Den primære diagnostiske udfald blev defineret som andelen af deltagere, der inkluderede den korrekte diagnose i deres top tre differentialdiagnoser efter brug af det tildelte værktøj (LLM eller søgemaskine). Nøjagtighed blev vurderet for hver af de 48 kliniske vignetter og aggregeret på tværs af alle deltagere i hver gruppe.
Umiddelbart efter intervention (inden for samme undersøgelsessession)
Triagepræcision (4-klasse eksakt match)
Tidsramme: Umiddelbart efter intervention (inden for samme undersøgelsessession)
Triage-nøjagtighed blev defineret som andelen af deltagere, der valgte den korrekte triageniveau (akut behandling, inden for en dag, inden for en uge eller egenomsorg), der matchede referencestandarden. Der var 12 vignetter pr. triagekategori.
Umiddelbart efter intervention (inden for samme undersøgelsessession)

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Top-1 Diagnostisk Nøjagtighed
Tidsramme: Umiddelbart efter intervention (inden for den samme undersøgelsessession)
Andelen af deltagere, der valgte den korrekte diagnose som deres øverste (første) diagnose efter brug af det tildelte værktøj. Dette måler præcisionen af lægfolks endelige diagnostiske vurdering.
Umiddelbart efter intervention (inden for den samme undersøgelsessession)
Triage-nøjagtighed (2-klasse binær match)
Tidsramme: Umiddelbart efter intervention (inden for samme undersøgelsessession)
Umiddelbart efter intervention (inden for samme undersøgelsessession)

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Efterforskere

  • Ledende efterforsker: Chenxi Liu, Huazhong University of Science and Technology

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

27. april 2025

Primær færdiggørelse (Faktiske)

1. juli 2025

Studieafslutning (Faktiske)

1. juli 2025

Datoer for studieregistrering

Først indsendt

17. november 2025

Først indsendt, der opfyldte QC-kriterier

25. november 2025

Først opslået (Faktiske)

26. november 2025

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

26. november 2025

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

25. november 2025

Sidst verificeret

1. oktober 2025

Mere information

Begreber relateret til denne undersøgelse

Andre undersøgelses-id-numre

  • JCYJ20240813115806009

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

INGEN

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Vignettebaseret intervention

Kliniske forsøg med AI-assisteret søgning efter sundhedsoplysninger

Abonner