Denne side blev automatisk oversat, og nøjagtigheden af ​​oversættelsen er ikke garanteret. Der henvises til engelsk version for en kildetekst.

Evaluering af One-Shot Vision Differential Diagnosis (OSVDE) og Multi-Step Conversational Non-Inferiority (MSCNE) i AI-medicinsk interview. (OSVDE-MSCNE)

20. marts 2026 opdateret af: Magic Health Inc. (d.b.a. Nolla Health)

Evaluering af AI-medicinsk interview- og diagnosessystems ydeevne: One-Shot Vision Differentialdiagnose (OSVDE) og Multi-Step Conversational Non-Inferiority (MSCNE) evaluering.

Denne undersøgelse evaluerer den diagnostiske præstation af et multimodal kunstig intelligenssystem (AIMD.1) der anvender anonymiserede medicinske billeder og semi-syntetiske patientsimulationer. Undersøgelsen kombinerer retrospektiv analyse af eksisterende offentligt tilgængelige billeddatasæt med prospektiv dataindsamling fra speciallæger, der gennemfører diagnostiske evalueringsopgaver.

I One-Shot Vision Differential Evaluation (OSVDE)-fasen gennemgår læger individuelle anonymiserede medicinske billeder og genererer en rangeret liste over potentielle diagnoser udelukkende baseret på visuelle funktioner. I Multi-Step Conversational Non-Inferiority Evaluation (MSCNE)-fasen gennemfører læger diagnostiske vurderinger ved hjælp af semi-syntetiske patientsimulationer afledt fra anonymiserede medicinske billeder. Lægernes præstation vil blive sammenlignet med AI-systemet på de samme diagnostiske opgaver.

Menneskelige deltagere udgøres udelukkende af speciallæger, der leverer diagnostiske svar. Medicinske billeder og simulerede tilfælde er undersøgelsesmaterialer og betragtes ikke som undersøgelsesdeltagere. Der anvendes ingen identificerbare patientdata, og AI-systemet evalueres i en offline forskningsmiljø og anvendes ikke til klinisk beslutningstagning eller patientbehandling.

Studieoversigt

Detaljeret beskrivelse

Kunstig intelligens (AI)-systemer har vist lovende evner inden for medicinsk diagnostik; dog er streng benchmark-evaluering nødvendig før klinisk implementering. AIMD.1 er et multimodal AI-diagnostisk system designet til at assistere med klinisk ræsonnement gennem analyse af medicinske billeder og samtalebaserede diagnostiske interaktioner.

Denne undersøgelse evaluerer den diagnostiske præstation af AIMD.1 ved at bruge en kombination af retrospektive billeddatasæt og prospektive kliniker evalueringsopgaver. Formålet er at afgøre, om AI-systemet opnår diagnostisk nøjagtighed sammenlignelig med specialcertificerede klinikere under kontrollerede benchmarkbetingelser.

Evalueringen omfatter to komplementære faser.

One-Shot Vision Differential Evaluation (OSVDE):

I denne fase gennemgår AI-systemet og kliniker-deltagerne uafhængigt individuelle anonymiserede medicinske billeder og genererer rangeringslister over potentielle diagnoser udelukkende baseret på visuelle træk. Evalueringen vil bruge cirka 11.500-15.000 anonymiserede medicinske billeder på tværs af flere medicinske specialer og sygdomskategorier med verificerede referencediagnoser.

Multi-Step Conversational Non-Inferiority Evaluation (MSCNE):

I denne fase fuldfører AI-systemet og klinikere diagnostiske opgaver ved hjælp af semi-syntetiske patientsimuleringer afledt af anonymiserede medicinske billeder. Disse simuleringer giver struktureret klinisk information gennem samtalebaserede interaktioner, hvilket muliggør vurdering af diagnostisk ræsonnement på tværs af flere trin. Cirka 380-500 simulerede tilfælde vil blive evalueret.

Cirka 10-30 specialcertificerede klinikere vil deltage i undersøgelsen. Klinikere vil fuldføre diagnostiske evalueringssessioner remote og vil give differentialdiagnoser for udvalgte billed- og simuleringstilfælde. Menneskelige deltagere udgøres udelukkende af klinikere, der leverer diagnostiske svar. Billeddatasættene og syntetiske tilfælde fungerer som studiemateriale og betragtes ikke som deltagere.

Alle billeder brugt i undersøgelsen er anonymiserede og stammer fra offentligt tilgængelige kilder eller datasæt, der opfylder anonymiseringsstandarder. Yderligere forbehandlingstrin sikrer fjernelse af eventuel potentielt identificerbar information før inklusion i forskningsdatasættet.

AI-systemet evalueres i en offline forskningsmiljø og bruges ikke til at guide virkelig klinisk pleje eller patienthåndtering. Undersøgelsen er designet som en benchmark præstationsevaluering før eventuel prospektiv validering involverende rigtige patienter.

Primære udfaldsmål inkluderer diagnostiske nøjagtighedsmål såsom Top-1 diagnostisk nøjagtighed, defineret som andelen af tilfælde, hvor AI-systemets primære diagnose matcher referencediagnosen. Sekundære udfald inkluderer Top-5 diagnostisk nøjagtighed, kalibreringsmål, sensitivitet og specificitet på tværs af sygdomskategorier, og tid-til-diagnose mål i samtalebaserede diagnostiske scenarier.

Dataanalyse vil estimere diagnostisk nøjagtighed med konfidensintervaller og sammenligne AI-systemets præstation med klinikerpræstation ved hjælp af parrede statistiske tests og non-inferioritetsanalyser.

Klinikersvar registreres ved hjælp af anonyme studieidentifikatorer, og kun aggregerede præstationsresultater vil blive rapporteret. Ingen identificerbar information om klinikere eller patienter vil blive indsamlet eller offentliggjort.

Undersøgelsens varighed forventes at være cirka seks måneder, inklusive datapreparation, kliniker evalueringssessioner og statistisk analyse.

Protokollen ID 1026 er blevet verificeret som Undtaget ifølge 45CFR46.104(d) Ex den 03/10/2026 af Solutions IRB (855) 226-4472 (www.solutionsirb.com)

Undersøgelsestype

Observationel

Tilmelding (Anslået)

30

Kontakter og lokationer

Dette afsnit indeholder kontaktoplysninger for dem, der udfører undersøgelsen, og oplysninger om, hvor denne undersøgelse udføres.

Studiekontakt

Undersøgelse Kontakt Backup

Studiesteder

    • New York
      • New York, New York, Forenede Stater, 10003
        • Rekruttering
        • Nolla Health (Magic Health Inc.)
        • Kontakt:
        • Kontakt:
        • Ledende efterforsker:
          • Luis R Soenksen, MSE, PhD
        • Underforsker:
          • Sean Geiger, B.S.
        • Underforsker:
          • Luis Wenus

Deltagelseskriterier

Forskere leder efter personer, der passer til en bestemt beskrivelse, kaldet berettigelseskriterier. Nogle eksempler på disse kriterier er en persons generelle helbredstilstand eller tidligere behandlinger.

Berettigelseskriterier

Aldre berettiget til at studere

  • Voksen
  • Ældre voksen

Tager imod sunde frivillige

Ja

Prøveudtagningsmetode

Ikke-sandsynlighedsprøve

Studiebefolkning

Studiepopulationen består af læger med specialeautorisation fra flere medicinske specialer, der deltager i diagnostiske evalueringsopgaver ved hjælp af anonymiserede medicinske billeder og semi-syntetiske patientsimulationer. Deltagerne rekrutteres gennem professionelle netværk og lægeforeninger. Ingen patienter er inkluderet i dette studie.

Beskrivelse

Inklusionskriterier:

  • Aktivt fagrådsgodkendt certifikat i Dermatologi, Intern Medicin, Øre-næse-hals-lægevidenskab, Gynækologi, Ortopædkirurgi, Pædiatri, Geriatri, Akutmedicin, Oftalmologi, Psykiatri, Endokrinologi, Almen Medicin eller et tæt beslægtet speciale
  • Alder 18 år eller ældre
  • Evne til at gennemføre diagnostiske evalueringssessioner remote ved hjælp af en computer eller tablet med pålidelig internetadgang

Eksklusionskriterier:

  • Tab af aktivt fagrådsgodkendt certifikat i et kvalificeret speciale
  • Ude af stand til at gennemføre evalueringssessionen remote

Studieplan

Dette afsnit indeholder detaljer om studieplanen, herunder hvordan undersøgelsen er designet, og hvad undersøgelsen måler.

Hvordan er undersøgelsen tilrettelagt?

Design detaljer

Kohorter og interventioner

Gruppe / kohorte
Intervention / Behandling
Kliniker Deltagere
Licenserede klinikere, der deltager i diagnostiske evalueringsopgaver ved hjælp af anonymiserede medicinske billeder og semi-syntetiske patientsimuleringer for at vurdere diagnostisk nøjagtighed. Klinikere leverer differentialdiagnoser til benchmark-sammenligning med et AI-diagnostisk system.
AIMD.1 (også kendt som NollaMD agent) er et multimodal kunstig intelligens (AI) diagnostisk system designet til at generere differentialdiagnoser baseret på analyse af medicinske billeder og struktureret klinisk information. I denne undersøgelse evalueres systemet ved hjælp af anonymiserede medicinske billeder og semi-syntetiske patientsimuleringer under kontrollerede forskningsbetingelser. AI-systemet genererer rangeret diagnostisk output og tilhørende tillidsscorer, som sammenlignes med referencediagnoser og kliniker præstationsmål. Systemet evalueres i en offline forskningsmiljø. AI-output bruges ikke til klinisk beslutningstagning, patienthåndtering eller reel medicinsk behandling.
Andre navne:
  • Kunstig Intelligens Differentialdiagnosesystem
  • AI Klinisk Beslutningsstøttesystem
  • AI Konversationel Klinisk System
  • NollaMD

Hvad måler undersøgelsen?

Primære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Top-1 Diagnostisk Nøjagtighed
Tidsramme: Ved afslutningen af diagnostiske evalueringer (op til 6 måneder)
Andelen af evaluerede tilfælde, hvor den primære diagnose genereret af AI Diagnostic System matcher reference- (ground truth) diagnosen. Nøjagtigheden beregnes på tværs af de-identificerede medicinske billedtilfælde og semi-syntetiske patientsimuleringstilfælde og sammenlignes med klinikerens præstation.
Ved afslutningen af diagnostiske evalueringer (op til 6 måneder)

Sekundære resultatmål

Resultatmål
Foranstaltningsbeskrivelse
Tidsramme
Top-5 diagnostisk nøjagtighed
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Andel af evaluerede tilfælde, hvor den korrekte referencediagnose forekommer blandt de fem øverste rangerede diagnoser genereret af AI Diagnostic System.
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Diagnostisk nøjagtighed af kliniker-deltagere
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Andelen af evaluerede tilfælde, hvor den kliniske deltagers primære diagnose stemmer overens med referencediagnosen, beregnet på tværs af tildelte billed- og simuleringscases.
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
AI-diagnostisk nøjagtigheds ikke-underlegenhed sammenlignet med klinikere
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Forskellen i Top-1 diagnostisk nøjagtighed mellem AI-diagnosesystemet og kliniker-deltagerne. Ikke-underlegenhed vil blive vurderet ved hjælp af en foruddefineret margin på 5%.
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Kalibrering af AI-diagnostisk tillid
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Kalibreringspræstation af AI-genererede diagnostiske tillidsscores vurderet ved brug af Forventet Kalibreringsfejl (ECE).
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Arealet under Receiver Operating Characteristic-kurven (AUC) og Precision Recall-kurven (PRC)
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Arealet under modtagerens driftskarakteristikkurve og præcisionstilbagekaldelseskurven for AI-diagnostisk klassificering på tværs af sygdomskategorier.
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
Tid-til-diagnose i Konversationssimuleringer
Tidsramme: Ved afslutningen af simulationsvurderinger (op til 6 måneder)
Antallet af samtaleomgange, der kræves af AI-systemet og kliniker-deltagerne for at nå en endelig diagnose i semi-syntetiske patient-simuleringsscenarier.
Ved afslutningen af simulationsvurderinger (op til 6 måneder)

Samarbejdspartnere og efterforskere

Det er her, du vil finde personer og organisationer, der er involveret i denne undersøgelse.

Efterforskere

  • Ledende efterforsker: Luis R Soenksen, MSE, PhD, Nolla Health

Datoer for undersøgelser

Disse datoer sporer fremskridtene for indsendelser af undersøgelsesrekord og resumeresultater til ClinicalTrials.gov. Studieregistreringer og rapporterede resultater gennemgås af National Library of Medicine (NLM) for at sikre, at de opfylder specifikke kvalitetskontrolstandarder, før de offentliggøres på den offentlige hjemmeside.

Studer store datoer

Studiestart (Faktiske)

19. marts 2026

Primær færdiggørelse (Anslået)

19. september 2026

Studieafslutning (Anslået)

19. september 2026

Datoer for studieregistrering

Først indsendt

10. marts 2026

Først indsendt, der opfyldte QC-kriterier

10. marts 2026

Først opslået (Faktiske)

13. marts 2026

Opdateringer af undersøgelsesjournaler

Sidste opdatering sendt (Faktiske)

25. marts 2026

Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier

20. marts 2026

Sidst verificeret

1. marts 2026

Mere information

Begreber relateret til denne undersøgelse

Plan for individuelle deltagerdata (IPD)

Planlægger du at dele individuelle deltagerdata (IPD)?

INGEN

IPD-planbeskrivelse

Data for den enkelte deltager vil ikke blive delt. Undersøgelsen omfatter de-identificerede medicinske billeder og anonyme klinikerdiagnostiske svar. Kun aggregerede resuméresultater (f.eks. diagnostiske nøjagtighedsmetrikker og statistiske analyser) vil blive rapporteret i publikationer og præsentationer.

Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter

Studerer et amerikansk FDA-reguleret lægemiddelprodukt

Ingen

Studerer et amerikansk FDA-reguleret enhedsprodukt

Ingen

Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .

Kliniske forsøg med Differential diagnose

Kliniske forsøg med AI Diagnostisk System (AIMD.1)

Abonner