- ICH GCP
- US Clinical Trials Registry
- Klinisk forsøg NCT07352475
Ræsonneringsberigelse Med Feedback Fra KI i NEfrologi-forsøg (REFINe)
Forbedring af Klinisk Ræsonnering med Feedback fra Generativ AI i Nefrologi (REFINe): En Randomiseret Evaluering af Generativ AI-støtte i Nefrologisk Diagnostik
Formålet med denne kliniske undersøgelse er at undersøge, hvordan kunstig intelligens (AI) kan hjælpe læger med at stille diagnoser inden for nyremedicin. Forskerne ønsker at finde ud af, om et AI-værktøj kaldet en stor sprogmodel (LLM) kan hjælpe læger med at vælge den korrekte diagnose oftere og føle sig mere sikre i deres svar.
Før studiet startede, testede forskerteamet flere AI-modeller og valgte en af de bedste, en GPT-5-klassemodel indstillet til at bruge høj ræsonneringsindsats.
De vigtigste spørgsmål, som dette studie sigter mod at besvare, er:
- Stiller læger flere korrekte diagnoser, når de kan se AI-forslag?
- Ændrer det, hvordan læger føler sig i forhold til deres diagnose, at se AI-forslag?
Forskere vil sammenligne læger, der modtager AI-forslag, med læger, der ikke modtager AI-forslag, for at se, hvordan AI påvirker nøjagtighed, selvtillid og beslutningstagning.
Deltagerne vil gennemføre op til 10 online kliniske tilfælde. For hvert tilfælde vil de:
- Læse en kort medicinsk scenarie
- Foreslå op til tre mulige diagnoser
(Hvis de er i AI-gruppen) Gennemgå AI'ens forslag og beslutte, om de skal ændre deres svar
Studiet vil også undersøge, hvor lang tid deltagerne bruger på at besvare hvert tilfælde, og hvordan AI'ens præstation sammenlignes med de menneskelige svar.
Studieoversigt
Status
Betingelser
Intervention / Behandling
Detaljeret beskrivelse
Denne undersøgelse evaluerer, om det at give klinikere realtids-diagnoseforslag fra en høj-ræsonnement stor sprogmodel (GPT-5) forbedrer diagnostisk nøjagtighed, tillid og effektivitet ved løsning af nefrologiske kliniske vignetter. Før valg af modellen til forsøget benchmarkede forskningsteamet flere state-of-the-art-modeller på et pilotsæt af nefrologiske tilfælde, herunder: GPT-5, GPT-5-mini, O3, GPT-4o, Llama-4 Maverick-17B, Gemini-2.5-Pro, Qwen-3 VL-235B Thinking, DeepSeek-V3.2-Exp, MedGEMMA-27B, Claude Sonnet-4.5 og Magistral-Medium-2509. GPT-5 (høj-ræsonnement) demonstrerede den højeste diagnostiske præstation, stabilitet og fortolkelighed og blev valgt som det AI-system, der anvendes i interventionsarmen.
Deltagerne omfatter medicinstuderende, residerende læger, fellows og praktiserende læger. Efter at have oprettet en konto udfylder deltagerne et demografisk spørgeskema (specialitet, års erfaring, praksistype, alderskategori, AI-kendskab) og skal eksplicit acceptere brugen af disse data til forskningsformål før adgang til vignetterne. Der indsamles ingen direkte identificerende oplysninger.
Deltagerne randomiseres (med stratificering efter professionel status) til enten den AI-understøttede arm eller kontrolarmen. Hver deltager tildeles 10 nefrologiske vignetter på fransk eller engelsk og kan gennemføre dem over flere sessioner. Når en vignet er indsendt, kan den ikke genbesøges ("ingen backtracking"). Gennemførelsestid pr. vignet registreres automatisk.
Kontrolarm
Deltagerne ser hver vignet og angiver op til tre diagnoser ("Top-3"), efterfulgt af en tillidsvurdering (0-10).
AI-understøttet arm
Deltagerne indtaster først en indledende Top-3-diagnose og tillidsvurdering uden AI-assistance. Systemet viser derefter GPT-5's diagnostiske forslag, hvorefter deltagerne kan revidere deres diagnoser én gang. Vignetten låses efter indsendelse.
Undersøgelsen indsamler:
- indledende og endelige diagnoser,
- tillidsvurderinger før og (hvis relevant) efter AI-forslag,
- gennemførelsestider,
- deltagernes demografiske variabler,
- og AI-modellens egne diagnostiske output.
Delvis gennemførelse er tilladt; alle gennemførte vignetter bidrager til analysen.
Primære og sekundære resultater omfatter diagnostisk nøjagtighed (Top-3 og Top-1), nøjagtighedsforbedring før vs. efter AI, ændringer i diagnostisk tillid, AI-inducerede diagnosefejl, human-versus-AI-benchmarking, effektivitetsmålinger for gennemførelsestid og andelen af tildelte vignetter gennemført.
Den primære analyse vil sammenligne diagnostisk nøjagtighed mellem kontrolarmen (læger alene) og forsøgsarmen (læger assisteret af AI-modellen). Nøjagtighed analyseres som et binært udfald (korrekt vs. forkert diagnose). Da hver deltager evaluerer flere kliniske vignetter, vil nøjagtighed modelleres ved hjælp af en mixed-effects logistisk regression med en fast effekt for studiearm og tilfældige intercepts for både deltager og vignet. Denne tilgang tager højde for klyngedannelse og varierende sværhedsgrad på tværs af tilfælde. Den primære hypotesetest bruger en tosidet α = 0,05. Effektstørrelser rapporteres som oddsforhold med 95 % konfidensintervaller. Sekundære analyser vil undersøge, om nøjagtighed varierer med demografiske faktorer (f.eks. erfaring, specialitet) ved hjælp af interaktionsled.
Da hver deltager evaluerer flere vignetter, udførte teamet også simulationsbaserede effektanalyser ved hjælp af mixed-effects logistiske regressionsmodeller med tilfældige intercepts for både deltager og vignet, under antagelse af en intra-deltager ICC på 0,10. Under disse antagelser giver et samlet udvalg på 100 deltagere (50 pr. arm) med 10 vignetter pr. deltager >99 % power til at påvise en klinisk meningsfuld forbedring i diagnostisk nøjagtighed. Undersøgerne planlægger derfor at rekruttere omkring 100 deltagere i alt.
Denne undersøgelse sigter mod at kvantificere, om AI-forstærket ræsonnement meningsfuldt forbedrer diagnostisk præstation og beslutningstagning, når klinikere evaluerer komplekse nefrologiske tilfælde.
Undersøgelsestype
Tilmelding (Anslået)
Fase
- Ikke anvendelig
Kontakter og lokationer
Studiekontakt
- Navn: Raphaël BENTEGEAC, MD, MPH
- Telefonnummer: +33651204000
- E-mail: raphael.bentegeac@univ-lille.fr
Studiesteder
-
-
-
Lille, Frankrig, 59000
- Rekruttering
- Lille University Hospital (online study)
-
Kontakt:
- Raphaël BENTEGEAC, MD, MPH
- Telefonnummer: +33651204000
- E-mail: raphael.bentegeac@chu-lille.fr
-
Kontakt:
- Aghiles HAMROUN, MD, PhD
- E-mail: aghiles.hamroun@univ-lille.fr
-
-
Deltagelseskriterier
Berettigelseskriterier
Aldre berettiget til at studere
- Voksen
- Ældre voksen
Tager imod sunde frivillige
Beskrivelse
Inklusionskriterier:
Voksne på 18 år eller ældre.
I stand til at læse og besvare kliniske vignetter på engelsk eller fransk.
Adgang til en computer eller smartphone med internetforbindelse.
Giver informeret samtykke online.
Deltagerne forventes at have mindst grundlæggende medicinsk uddannelse (f.eks. medicinstuderende, residerende læger, fellows eller praktiserende klinikere), selvom der ikke kræves formel verifikation.
Eksklusionskriterier:
Personer under 18 år.
Manglende evne til at gennemføre online studieprocedurer.
Tidligere involvering i design, udvikling eller evaluering af det AI-system, der anvendes i dette studie.
Studieplan
Hvordan er undersøgelsen tilrettelagt?
Design detaljer
- Primært formål: Diagnostisk
- Tildeling: Randomiseret
- Interventionel model: Parallel tildeling
- Maskning: Ingen (Åben etiket)
Våben og indgreb
Deltagergruppe / Arm |
Intervention / Behandling |
|---|---|
|
Eksperimentel: Gruppe med AI-forslag
Deltagerne i denne arm vil gennemføre de samme kliniske casevignetter som kontrolgruppen.
For hver case vil de modtage en foreslået diagnose genereret af en stor sprogmodel (GPT-5, høj-ræsonneringskonfiguration), som blev udvalgt efter intern benchmarking.
Deltagerne kan gennemgå AI-forslaget, før de indtaster deres eget endelige diagnostiske svar.
Der ydes ingen yderligere information, prompts eller vejledning.
Interventionen består udelukkende af at vise den AI-genererede diagnostiske forslag under case-løsningsopgaven.
|
Denne intervention består i at vise en AI-genereret diagnostisk forslag under opgaven med at løse kliniske tilfælde.
Efter at have læst hver vignet ser deltagerne det øverste diagnostiske forslag produceret af en stor sprogmodel (GPT-5, høj-ræsonneringskonfiguration), valgt efter intern benchmarking.
AI-forslaget vises én gang pr. vignet og kan ikke anmodes om igen eller ændres.
Deltagerne kan revidere deres diagnostiske svar efter at have set forslaget, men de kan ikke vende tilbage til vignetten senere.
Der gives ingen yderligere vejledning, coaching eller interaktive funktioner.
|
|
Ingen indgriben: Gruppe uden AI-forslag
Deltagerne i denne arm vil gennemføre de kliniske casevignetter uafhængigt, uden nogen AI-genererede diagnostiske forslag.
De vil læse hver vignet og give deres eget diagnostiske svar udelukkende baseret på de præsenterede oplysninger.
Der gives ingen ekstern beslutningsstøtte eller yderligere materialer.
|
Hvad måler undersøgelsen?
Primære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Endelig diagnostisk nøjagtighed (top-3) med vs uden AI-støtte
Tidsramme: Fra første værkstedsscenarie besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
For hver deltager, andelen af vignetter, hvor den korrekte hoveddiagnose er inkluderet i deltagerens endelige top-3-diagnoser. Sammenlign endelig top-3-nøjagtighed mellem AI-armen (efter AI-forslag) og kontrolarmen (ingen AI). Procentdel af korrekt diagnosticerede tilfælde (top-3). |
Fra første værkstedsscenarie besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
Sekundære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Endelig diagnostisk nøjagtighed (top-1) med vs uden AI-støtte
Tidsramme: Fra første vinjet besvaret til afslutningen af undersøgelsen (op til 12 måneder).
|
For hver deltager, andelen af vignetter, hvor den korrekte hoveddiagnose er inkluderet i deltagerens endelige top-1-diagnoser.
Sammenlign endelig top-1-nøjagtighed mellem AI-armen (efter AI-forslag) og kontrolarmen (ingen AI).
Procentdel af korrekt diagnosticerede tilfælde (top-1).
|
Fra første vinjet besvaret til afslutningen af undersøgelsen (op til 12 måneder).
|
|
Ændring i top-3 diagnostisk nøjagtighed før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
I den AI-understøttede arm giver deltagerne først et indledende svar (op til tre diagnoser) uden AI-forslag, ser derefter AI-genererede forslag og kan revidere deres svar én gang; de kan ikke vende tilbage til den vignet senere. For hver deltager beregner forskerne forskellen i top-3 nøjagtighed mellem indledende og endelige svar på tværs af alle gennemførte vignetter. Procentpointændring i top-3 diagnostisk nøjagtighed |
Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
Ændring i top-1 diagnostisk nøjagtighed før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil studiet afsluttes (op til 12 måneder).
|
I den AI-understøttede arm giver deltagerne først et indledende svar (op til tre diagnoser) uden AI-forslag, ser derefter AI-genererede forslag og kan revidere deres svar én gang; de kan ikke vende tilbage til den vignet senere. For hver deltager beregner undersøgerne forskellen i top-1-nøjagtighed mellem indledende og endelige svar på tværs af alle afsluttede vignetter. Procentpointændring i Top-1 diagnostisk nøjagtighed |
Fra første vignette besvaret indtil studiet afsluttes (op til 12 måneder).
|
|
Diagnostisk tillid (0-10) før AI-forslag: Kontrol vs AI-arm
Tidsramme: Fra første vignette besvaret indtil afslutningen af studiet (op til 12 måneder).
|
Deltagere i begge grupper vurderer deres tillid (0-10 skala) til deres Top-3 diagnostiske forslag, før der gives nogen AI-forslag. I AI-gruppen er dette "pre-AI"-vurderingen. I kontrolgruppen er dette den eneste tillidsvurdering (da der ikke vises nogen AI). Undersøgerne sammenligner pre-AI tilliden mellem grupperne, aggregeret på tværs af alle gennemførte vignetter pr. deltager. |
Fra første vignette besvaret indtil afslutningen af studiet (op til 12 måneder).
|
|
Endelig diagnostisk sikkerhed (0-10) efter AI-forslag: Kontrol vs AI-arm
Tidsramme: Fra første værktøjsbesvarelse indtil afslutningen af undersøgelsen (op til 12 måneder).
|
Endelig diagnostisk tillid (0-10 skala) i de Top-3 diagnostiske forslag på tværs af alle afsluttede vignetter, sammenlignet mellem grupperne. I AI-gruppen er dette tillidsvurderingen efter AI. I kontrollgruppen er dette den samme tillidsvurdering (deltagerne modtager ikke AI-forslag). |
Fra første værktøjsbesvarelse indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
Ændring i diagnostisk tillid (0-10) før vs efter AI-forslag (kun AI-arm)
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
I AI-gruppen giver deltagerne tillidsvurderinger (0-10-skala) for deres Top-3 diagnoser både før og efter at have set AI-forslag. For hver deltager beregner forskerne den indenfor-deltager ændring (efter-AI minus før-AI) på tværs af alle gennemførte vignetter. Ændring i tillidsscore (0-10-skala) |
Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
AI-induceret diagnostisk fejl (kun AI-arm)
Tidsramme: Fra første vignet besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
Blandt afsluttede vignetter, hvor deltagerens oprindelige Top-1-diagnose er korrekt, andel hvor den endelige Top-1-diagnose bliver ukorrekt efter AI-forslag.
|
Fra første vignet besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
Ændring i Top-3-diagnose efter AI-forslag (kun AI-arm)
Tidsramme: Fra første værtskabsbesvarelse indtil afslutningen af studiet (op til 12 måneder).
|
Blandt afsluttede vignetter i AI-armen, andelen hvor Top-3-diagnosen adskiller sig mellem svar før AI og efter AI.
|
Fra første værtskabsbesvarelse indtil afslutningen af studiet (op til 12 måneder).
|
|
Top-3 diagnostisk nøjagtighed: Alle menneskelige svar før AI vs AI-nøjagtighed
Tidsramme: Fra første vigne besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
For hver vignette sammenlignes Top-3 diagnostisk nøjagtighed af menneskelige deltagere før nogen AI-forslag (kombinerer deltagere fra begge studiearme på deres for-AI-stadie) med Top-3 diagnostisk nøjagtighed af AI-modellen for samme vignette. Den rapporterede resultat er nøjagtighedsforskellen, defineret som AI Top-3 nøjagtighed minus menneskelig for-AI Top-3 nøjagtighed, udtrykt i procentpoint og beregnet på vignette-niveau på tværs af alle fuldførte vignetter. Procentpointforskel i Top-3 diagnostisk nøjagtighed |
Fra første vigne besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
Top-3 diagnostisk nøjagtighed: Menneskes endelige svar efter AI vs AI-nøjagtighed (kun AI-arm)
Tidsramme: Fra første vignette besvaret til studiet afsluttes (op til 12 måneder).
|
For hver vignet, der gennemføres i den AI-understøttede arm, sammenlignes Top-3 diagnostiske nøjagtighed af menneskelige deltagere efter at have set AI-forslag med Top-3 diagnostiske nøjagtighed af AI-modellen. (Top-3 nøjagtighed er et enkelt mål) Den rapporterede Outcome er nøjagtighedsforskellen, defineret som AI Top-3 nøjagtighed minus menneskelig post-AI Top-3 nøjagtighed, udtrykt i procentpoint og beregnet på vignetniveau på tværs af alle gennemførte vignetter i AI-armen. Procentpointforskel i Top-3 diagnostisk nøjagtighed mellem AI og menneske |
Fra første vignette besvaret til studiet afsluttes (op til 12 måneder).
|
|
Færdiggørelsestid pr. vignette med og uden AI-understøttelse
Tidsramme: Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
For hvert vignet registrerer platformen tiden fra vignetåbning til indsendelse af svar. I kontrollarmen registreres en enkelt færdiggørelsestid for hvert vignet. I den AI-understøttede arm registreres færdiggørelsestid før visning af AI-forslag og igen efter visning af AI-forslag. Resultatet rapporterer forskellen i færdiggørelsestid mellem studiearmene, udtrykt i sekunder og beregnet på tværs af alle gennemførte vignetter. Sekunder (forskel i færdiggørelsestid) |
Fra første vignette besvaret indtil afslutningen af undersøgelsen (op til 12 måneder).
|
|
Andel af tildelte vignetter gennemført
Tidsramme: Fra første vignettesvar indtil afslutningen af undersøgelsen (op til 12 måneder).
|
For hver deltager, andelen af de 10 vignetter, der blev gennemført inden for studieperioden, sammenlignet mellem grupperne.
|
Fra første vignettesvar indtil afslutningen af undersøgelsen (op til 12 måneder).
|
Samarbejdspartnere og efterforskere
Sponsor
Datoer for undersøgelser
Studer store datoer
Studiestart (Faktiske)
Primær færdiggørelse (Anslået)
Studieafslutning (Anslået)
Datoer for studieregistrering
Først indsendt
Først indsendt, der opfyldte QC-kriterier
Først opslået (Faktiske)
Opdateringer af undersøgelsesjournaler
Sidste opdatering sendt (Faktiske)
Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier
Sidst verificeret
Mere information
Begreber relateret til denne undersøgelse
Nøgleord
Yderligere relevante MeSH-vilkår
Andre undersøgelses-id-numre
- CHUL-191125
Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter
Studerer et amerikansk FDA-reguleret lægemiddelprodukt
Studerer et amerikansk FDA-reguleret enhedsprodukt
Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .
Kliniske forsøg med Beslutningsstøttesystemer, klinisk
-
Jiawei JiangRekruttering
-
Iaso Maternity Hospital, Athens, GreeceAfsluttet
-
Medway NHS Foundation TrustAfsluttetClinical Decision Support System (CDSS)Det Forenede Kongerige
-
Kaohsiung Medical University Chung-Ho Memorial...RekrutteringClinical Decision Support SystemTaiwan
-
Beijing Anzhen HospitalAktiv, ikke rekrutterendeAkut myokardieinfarkt | Clinical Decision Support System | Store sprogmodellerKina
-
Prof.dr Carin (C.C.D.) van der RijtNoordwest Ziekenhuisgroep; Rijnstate Hospital; Ikazia Hospital, Rotterdam; Laurens... og andre samarbejdspartnereAfsluttetLivskvalitet | Palliativ pleje | Håndtering af medicinterapi | Terminalpleje | Clinical Decision Support System (CDSS)Holland
-
Turkish Ministry of Health Izmir Teaching HospitalUkendtAkut koronarsyndrom | Clinical Decision Support SystemKalkun
-
Gözde Nur ErkanKırıkkale UniversityAfsluttetSelvevaluering | OSCE (Objective Structured Clinical Examination) | Instruktørvejledning | Intermediate Life Support | Tandlægestuderende | Peer AssessmentTyrkiet (Türkiye)
-
National University, RwandaUniversity of Pittsburgh; Brown University; Centers for Disease Control and... og andre samarbejdspartnereUkendtClinical Decision Support System | HIV/AIDS og infektioner | Elektroniske lægejournalerRwanda
-
Keck School of Medicine of USCAIDS Healthcare Foundation; Los Angeles General Medical CenterIkke rekrutterer endnuAntiretroviral terapi, meget aktiv | HIV (Human Immunodeficiency Virus) | Personlig medicin | Clinical Decision Support System (CDSS) | AIDS (Acquired Immune Deficiency Syndrome) | INDIVIDUALISERET TERAPI | PræcisionsmedicinForenede Stater
Kliniske forsøg med AI-forslag
-
Cheng-Hsin General HospitalTilmelding efter invitation
-
Shanghai Jiao Tong University Affiliated Sixth...RekrutteringAkut iskæmisk slagtilfælde | CT angiografi | Endovaskulær trombektomi | Kunstig intelligens (AI)Kina
-
Duke UniversityNational Cancer Institute (NCI)Ikke rekrutterer endnuBrystkræft, hormonreceptorpositiv, aromatasehæmmer-associeret artralgi
-
University of ManchesterUniversity of CambridgeRekrutteringPrimære sundhedssektor | Kunstig intelligens (AI)Det Forenede Kongerige
-
Shandong UniversityAfsluttetKunstig intelligens | Optisk Enhancement Endoskopi | Forstørrelses-endoskopiKina
-
Shanghai East HospitalIkke rekrutterer endnu
-
Rigshospitalet, DenmarkTechnical University of Denmark; Copenhagen Academy for Medical Education... og andre samarbejdspartnereRekrutteringGør KI klinikere mere passende selvsikre? Et randomiseret studie i forudsigelse af for tidlig fødselFor tidlig fødsel | Kunstig intelligens (AI) i diagnoseDanmark
-
The University of Hong KongRekrutteringColon polyp | Tyktarmskræft | Colon adenomHong Kong
-
Federal University of Minas GeraisUppsala UniversityIkke rekrutterer endnuKardiovaskulære abnormiteter | Elektrokardiogram
-
Mackay Memorial HospitalIkke rekrutterer endnuHjertesvigt med bevaret ejektionsfraktion