Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Ræsonneringsberigelse Med Feedback Fra KI i NEfrologi-forsøg (REFINe)

12. januar 2026 opdateret af: Aghiles.HAMROUN, University Hospital, Lille

Forbedring af Klinisk Ræsonnering med Feedback fra Generativ AI i Nefrologi (REFINe): En Randomiseret Evaluering af Generativ AI-støtte i Nefrologisk Diagnostik

Formålet med denne kliniske undersøgelse er at undersøge, hvordan kunstig intelligens (AI) kan hjælpe læger med at stille diagnoser inden for nyremedicin. Forskerne ønsker at finde ud af, om et AI-værktøj kaldet en stor sprogmodel (LLM) kan hjælpe læger med at vælge den korrekte diagnose oftere og føle sig mere sikre i deres svar.

Før studiet startede, testede forskerteamet flere AI-modeller og valgte en af de bedste, en GPT-5-klassemodel indstillet til at bruge høj ræsonneringsindsats.

De vigtigste spørgsmål, som dette studie sigter mod at besvare, er:

  1. Stiller læger flere korrekte diagnoser, når de kan se AI-forslag?
  2. Ændrer det, hvordan læger føler sig i forhold til deres diagnose, at se AI-forslag?

Forskere vil sammenligne læger, der modtager AI-forslag, med læger, der ikke modtager AI-forslag, for at se, hvordan AI påvirker nøjagtighed, selvtillid og beslutningstagning.

Deltagerne vil gennemføre op til 10 online kliniske tilfælde. For hvert tilfælde vil de:

  1. Læse en kort medicinsk scenarie
  2. Foreslå op til tre mulige diagnoser

(Hvis de er i AI-gruppen) Gennemgå AI'ens forslag og beslutte, om de skal ændre deres svar

Studiet vil også undersøge, hvor lang tid deltagerne bruger på at besvare hvert tilfælde, og hvordan AI'ens præstation sammenlignes med de menneskelige svar.

Studieoversigt

Detaljeret beskrivelse

Denne undersøgelse evaluerer, om det at give klinikere realtids-diagnoseforslag fra en høj-ræsonnement stor sprogmodel (GPT-5) forbedrer diagnostisk nøjagtighed, tillid og effektivitet ved løsning af nefrologiske kliniske vignetter. Før valg af modellen til forsøget benchmarkede forskningsteamet flere state-of-the-art-modeller på et pilotsæt af nefrologiske tilfælde, herunder: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5 og Magistral-Medium-2509. GPT-5 (høj-ræsonnement) demonstrerede den højeste diagnostiske præstation, stabilitet og fortolkelighed og blev valgt som det AI-system, der anvendes i interventionsarmen.

Deltagerne omfatter medicinstuderende, residerende læger, fellows og praktiserende læger. Efter at have oprettet en konto udfylder deltagerne et demografisk spørgeskema (specialitet, års erfaring, praksistype, alderskategori, AI-kendskab) og skal eksplicit acceptere brugen af disse data til forskningsformål før adgang til vignetterne. Der indsamles ingen direkte identificerende oplysninger.

Deltagerne randomiseres (med stratificering efter professionel status) til enten den AI-understøttede arm eller kontrolarmen. Hver deltager tildeles 10 nefrologiske vignetter på fransk eller engelsk og kan gennemføre dem over flere sessioner. Når en vignet er indsendt, kan den ikke genbesøges ("ingen backtracking"). Gennemførelsestid pr. vignet registreres automatisk.

Kontrolarm

Deltagerne ser hver vignet og angiver op til tre diagnoser ("Top-3"), efterfulgt af en tillidsvurdering (0-10).

AI-understøttet arm

Deltagerne indtaster først en indledende Top-3-diagnose og tillidsvurdering uden AI-assistance. Systemet viser derefter GPT-5's diagnostiske forslag, hvorefter deltagerne kan revidere deres diagnoser én gang. Vignetten låses efter indsendelse.

Undersøgelsen indsamler:

  • indledende og endelige diagnoser,
  • tillidsvurderinger før og (hvis relevant) efter AI-forslag,
  • gennemførelsestider,
  • deltagernes demografiske variabler,
  • og AI-modellens egne diagnostiske output.

Delvis gennemførelse er tilladt; alle gennemførte vignetter bidrager til analysen.

Primære og sekundære resultater omfatter diagnostisk nøjagtighed (Top-3 og Top-1), nøjagtighedsforbedring før vs. efter AI, ændringer i diagnostisk tillid, AI-inducerede diagnosefejl, human-versus-AI-benchmarking, effektivitetsmålinger for gennemførelsestid og andelen af tildelte vignetter gennemført.

Den primære analyse vil sammenligne diagnostisk nøjagtighed mellem kontrolarmen (læger alene) og forsøgsarmen (læger assisteret af AI-modellen). Nøjagtighed analyseres som et binært udfald (korrekt vs. forkert diagnose). Da hver deltager evaluerer flere kliniske vignetter, vil nøjagtighed modelleres ved hjælp af en mixed-effects logistisk regression med en fast effekt for studiearm og tilfældige intercepts for både deltager og vignet. Denne tilgang tager højde for klyngedannelse og varierende sværhedsgrad på tværs af tilfælde. Den primære hypotesetest bruger en tosidet α = 0,05. Effektstørrelser rapporteres som oddsforhold med 95 % konfidensintervaller. Sekundære analyser vil undersøge, om nøjagtighed varierer med demografiske faktorer (f.eks. erfaring, specialitet) ved hjælp af interaktionsled.

Da hver deltager evaluerer flere vignetter, udførte teamet også simulationsbaserede effektanalyser ved hjælp af mixed-effects logistiske regressionsmodeller med tilfældige intercepts for både deltager og vignet, under antagelse af en intra-deltager ICC på 0,10. Under disse antagelser giver et samlet udvalg på 100 deltagere (50 pr. arm) med 10 vignetter pr. deltager >99 % power til at påvise en klinisk meningsfuld forbedring i diagnostisk nøjagtighed. Undersøgerne planlægger derfor at rekruttere omkring 100 deltagere i alt.

Denne undersøgelse sigter mod at kvantificere, om AI-forstærket ræsonnement meningsfuldt forbedrer diagnostisk præstation og beslutningstagning, når klinikere evaluerer komplekse nefrologiske tilfælde.

Undersøgelsestype

Interventionel

Tilmelding (Anslået)

100

Fase

  • Ikke anvendelig

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiekontakt

Studiesteder

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

  • Voksen
  • Ældre voksen

Tager imod sunde frivillige

Ja

Beskrivelse

Inklusionskriterier:

Voksne på 18 år eller ældre.

I stand til at læse og besvare kliniske vignetter på engelsk eller fransk.

Adgang til en computer eller smartphone med internetforbindelse.

Giver informeret samtykke online.

Deltagerne forventes at have mindst grundlæggende medicinsk uddannelse (f.eks. medicinstuderende, residerende læger, fellows eller praktiserende klinikere), selvom der ikke kræves formel verifikation.

Eksklusionskriterier:

Personer under 18 år.

Manglende evne til at gennemføre online studieprocedurer.

Tidligere involvering i design, udvikling eller evaluering af det AI-system, der anvendes i dette studie.

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

  • Primært formål: Diagnostisk
  • Tildeling: Randomiseret
  • Interventionel model: Parallel tildeling
  • Maskning: Ingen (Åben etiket)

Våben og indgreb

Deltagergruppe / Arm
Intervention / Behandling
Eksperimentel: Gruppe med AI-forslag
Deltagerne i denne arm vil gennemføre de samme kliniske casevignetter som kontrolgruppen. For hver case vil de modtage en foreslået diagnose genereret af en stor sprogmodel (GPT-5, høj-ræsonneringskonfiguration), som blev udvalgt efter intern benchmarking. Deltagerne kan gennemgå AI-forslaget, før de indtaster deres eget endelige diagnostiske svar. Der ydes ingen yderligere information, prompts eller vejledning. Interventionen består udelukkende af at vise den AI-genererede diagnostiske forslag under case-løsningsopgaven.
Denne intervention består i at vise en AI-genereret diagnostisk forslag under opgaven med at løse kliniske tilfælde. Efter at have læst hver vignet ser deltagerne det øverste diagnostiske forslag produceret af en stor sprogmodel (GPT-5, høj-ræsonneringskonfiguration), valgt efter intern benchmarking. AI-forslaget vises én gang pr. vignet og kan ikke anmodes om igen eller ændres. Deltagerne kan revidere deres diagnostiske svar efter at have set forslaget, men de kan ikke vende tilbage til vignetten senere. Der gives ingen yderligere vejledning, coaching eller interaktive funktioner.
Ingen indgriben: Gruppe uden AI-forslag
Deltagerne i denne arm vil gennemføre de kliniske casevignetter uafhængigt, uden nogen AI-genererede diagnostiske forslag. De vil læse hver vignet og give deres eget diagnostiske svar udelukkende baseret på de præsenterede oplysninger. Der gives ingen ekstern beslutningsstøtte eller yderligere materialer.

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Endelig diagnostisk nøjagtighed (top-3) med vs uden AI-støtte
Tidsramme: Fra første værkstedsscenarie besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

For hver deltager, andelen af vignetter, hvor den korrekte hoveddiagnose er inkluderet i deltagerens endelige top-3-diagnoser. Sammenlign endelig top-3-nøjagtighed mellem AI-armen (efter AI-forslag) og kontrolarmen (ingen AI).

Procentdel af korrekt diagnosticerede tilfælde (top-3).

Fra første værkstedsscenarie besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Endelig diagnostisk nøjagtighed (top-1) med vs uden AI-støtte
Tidsramme: Fra første vinjet besvaret til afslutningen af undersøgelsen (op til 12 måneder).
For hver deltager, andelen af vignetter, hvor den korrekte hoveddiagnose er inkluderet i deltagerens endelige top-1-diagnoser. Sammenlign endelig top-1-nøjagtighed mellem AI-armen (efter AI-forslag) og kontrolarmen (ingen AI). Procentdel af korrekt diagnosticerede tilfælde (top-1).
Fra første vinjet besvaret til afslutningen af undersøgelsen (op til 12 måneder).
Ændring i top-3 diagnostisk nøjagtighed før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

I den AI-understøttede arm giver deltagerne først et indledende svar (op til tre diagnoser) uden AI-forslag, ser derefter AI-genererede forslag og kan revidere deres svar én gang; de kan ikke vende tilbage til den vignet senere. For hver deltager beregner forskerne forskellen i top-3 nøjagtighed mellem indledende og endelige svar på tværs af alle gennemførte vignetter.

Procentpointændring i top-3 diagnostisk nøjagtighed

Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
Ændring i top-1 diagnostisk nøjagtighed før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil studiet afsluttes (op til 12 måneder).

I den AI-understøttede arm giver deltagerne først et indledende svar (op til tre diagnoser) uden AI-forslag, ser derefter AI-genererede forslag og kan revidere deres svar én gang; de kan ikke vende tilbage til den vignet senere. For hver deltager beregner undersøgerne forskellen i top-1-nøjagtighed mellem indledende og endelige svar på tværs af alle afsluttede vignetter.

Procentpointændring i Top-1 diagnostisk nøjagtighed

Fra første vignette besvaret indtil studiet afsluttes (op til 12 måneder).
Diagnostisk tillid (0-10) før AI-forslag: Kontrol vs AI-arm
Tidsramme: Fra første vignette besvaret indtil afslutningen af studiet (op til 12 måneder).

Deltagere i begge grupper vurderer deres tillid (0-10 skala) til deres Top-3 diagnostiske forslag, før der gives nogen AI-forslag.

I AI-gruppen er dette "pre-AI"-vurderingen. I kontrolgruppen er dette den eneste tillidsvurdering (da der ikke vises nogen AI).

Undersøgerne sammenligner pre-AI tilliden mellem grupperne, aggregeret på tværs af alle gennemførte vignetter pr. deltager.

Fra første vignette besvaret indtil afslutningen af studiet (op til 12 måneder).
Endelig diagnostisk sikkerhed (0-10) efter AI-forslag: Kontrol vs AI-arm
Tidsramme: Fra første værktøjsbesvarelse indtil afslutningen af undersøgelsen (op til 12 måneder).

Endelig diagnostisk tillid (0-10 skala) i de Top-3 diagnostiske forslag på tværs af alle afsluttede vignetter, sammenlignet mellem grupperne.

I AI-gruppen er dette tillidsvurderingen efter AI. I kontrollgruppen er dette den samme tillidsvurdering (deltagerne modtager ikke AI-forslag).

Fra første værktøjsbesvarelse indtil afslutningen af undersøgelsen (op til 12 måneder).
Ændring i diagnostisk tillid (0-10) før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

I AI-gruppen giver deltagerne tillidsvurderinger (0-10-skala) for deres Top-3 diagnoser både før og efter at have set AI-forslag.

For hver deltager beregner forskerne den indenfor-deltager ændring (efter-AI minus før-AI) på tværs af alle gennemførte vignetter.

Ændring i tillidsscore (0-10-skala)

Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
AI-induceret diagnostisk fejl (kun AI-arm)
Tidsramme: Fra første vignet besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
Blandt afsluttede vignetter, hvor deltagerens oprindelige Top-1-diagnose er korrekt, andel hvor den endelige Top-1-diagnose bliver ukorrekt efter AI-forslag.
Fra første vignet besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
Ændring i Top-3-diagnose efter AI-forslag (kun AI-arm)
Tidsramme: Fra første værtskabsbesvarelse indtil afslutningen af studiet (op til 12 måneder).
Blandt afsluttede vignetter i AI-armen, andelen hvor Top-3-diagnosen adskiller sig mellem svar før AI og efter AI.
Fra første værtskabsbesvarelse indtil afslutningen af studiet (op til 12 måneder).
Top-3 diagnostisk nøjagtighed: Alle menneskelige svar før AI vs AI-nøjagtighed
Tidsramme: Fra første vigne besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

For hver vignette sammenlignes Top-3 diagnostisk nøjagtighed af menneskelige deltagere før nogen AI-forslag (kombinerer deltagere fra begge studiearme på deres for-AI-stadie) med Top-3 diagnostisk nøjagtighed af AI-modellen for samme vignette. Den rapporterede resultat er nøjagtighedsforskellen, defineret som AI Top-3 nøjagtighed minus menneskelig for-AI Top-3 nøjagtighed, udtrykt i procentpoint og beregnet på vignette-niveau på tværs af alle fuldførte vignetter.

Procentpointforskel i Top-3 diagnostisk nøjagtighed

Fra første vigne besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
Top-3 diagnostisk nøjagtighed: Menneskes endelige svar efter AI vs AI-nøjagtighed (kun AI-arm)
Tidsramme: Fra første vignette besvaret til studiet afsluttes (op til 12 måneder).

For hver vignet, der gennemføres i den AI-understøttede arm, sammenlignes Top-3 diagnostiske nøjagtighed af menneskelige deltagere efter at have set AI-forslag med Top-3 diagnostiske nøjagtighed af AI-modellen.

(Top-3 nøjagtighed er et enkelt mål) Den rapporterede Outcome er nøjagtighedsforskellen, defineret som AI Top-3 nøjagtighed minus menneskelig post-AI Top-3 nøjagtighed, udtrykt i procentpoint og beregnet på vignetniveau på tværs af alle gennemførte vignetter i AI-armen.

Procentpointforskel i Top-3 diagnostisk nøjagtighed mellem AI og menneske

Fra første vignette besvaret til studiet afsluttes (op til 12 måneder).
Færdiggørelsestid pr. vignette med og uden AI-understøttelse
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).

For hvert vignet registrerer platformen tiden fra vignetåbning til indsendelse af svar. I kontrollarmen registreres en enkelt færdiggørelsestid for hvert vignet. I den AI-understøttede arm registreres færdiggørelsestid før visning af AI-forslag og igen efter visning af AI-forslag. Resultatet rapporterer forskellen i færdiggørelsestid mellem studiearmene, udtrykt i sekunder og beregnet på tværs af alle gennemførte vignetter.

Sekunder (forskel i færdiggørelsestid)

Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
Andel af tildelte vignetter gennemført
Tidsramme: Fra første vignettesvar indtil afslutningen af undersøgelsen (op til 12 måneder).
For hver deltager, andelen af de 10 vignetter, der blev gennemført inden for studieperioden, sammenlignet mellem grupperne.
Fra første vignettesvar indtil afslutningen af undersøgelsen (op til 12 måneder).

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

20. november 2025

Primær færdiggørelse (Anslået)

31. oktober 2026

Studieafslutning (Anslået)

31. december 2026

Datoer for studieregistrering

Først indsendt

19. november 2025

Først indsendt, der opfyldte QC-kriterier

12. januar 2026

Først opslået (Faktiske)

20. januar 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

20. januar 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

12. januar 2026

Sidst verificeret

1. januar 2026

Mere information

Begreber relateret til denne undersøgelse

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Beslutningsstøttesystemer, klinisk

Kliniske forsøg med AI-forslag

Abonner