- ICH GCP
- US Clinical Trials Registry
- Klinisk forsøg NCT07470463
Evaluering af One-Shot Vision Differential Diagnosis (OSVDE) og Multi-Step Conversational Non-Inferiority (MSCNE) i AI-medicinsk interview. (OSVDE-MSCNE)
Evaluering af AI-medicinsk interview- og diagnosessystems ydeevne: One-Shot Vision Differentialdiagnose (OSVDE) og Multi-Step Conversational Non-Inferiority (MSCNE) evaluering.
Denne undersøgelse evaluerer den diagnostiske præstation af et multimodal kunstig intelligenssystem (AIMD.1) der anvender anonymiserede medicinske billeder og semi-syntetiske patientsimulationer. Undersøgelsen kombinerer retrospektiv analyse af eksisterende offentligt tilgængelige billeddatasæt med prospektiv dataindsamling fra speciallæger, der gennemfører diagnostiske evalueringsopgaver.
I One-Shot Vision Differential Evaluation (OSVDE)-fasen gennemgår læger individuelle anonymiserede medicinske billeder og genererer en rangeret liste over potentielle diagnoser udelukkende baseret på visuelle funktioner. I Multi-Step Conversational Non-Inferiority Evaluation (MSCNE)-fasen gennemfører læger diagnostiske vurderinger ved hjælp af semi-syntetiske patientsimulationer afledt fra anonymiserede medicinske billeder. Lægernes præstation vil blive sammenlignet med AI-systemet på de samme diagnostiske opgaver.
Menneskelige deltagere udgøres udelukkende af speciallæger, der leverer diagnostiske svar. Medicinske billeder og simulerede tilfælde er undersøgelsesmaterialer og betragtes ikke som undersøgelsesdeltagere. Der anvendes ingen identificerbare patientdata, og AI-systemet evalueres i en offline forskningsmiljø og anvendes ikke til klinisk beslutningstagning eller patientbehandling.
Studieoversigt
Status
Betingelser
Intervention / Behandling
Detaljeret beskrivelse
Kunstig intelligens (AI)-systemer har vist lovende evner inden for medicinsk diagnostik; dog er streng benchmark-evaluering nødvendig før klinisk implementering. AIMD.1 er et multimodal AI-diagnostisk system designet til at assistere med klinisk ræsonnement gennem analyse af medicinske billeder og samtalebaserede diagnostiske interaktioner.
Denne undersøgelse evaluerer den diagnostiske præstation af AIMD.1 ved at bruge en kombination af retrospektive billeddatasæt og prospektive kliniker evalueringsopgaver. Formålet er at afgøre, om AI-systemet opnår diagnostisk nøjagtighed sammenlignelig med specialcertificerede klinikere under kontrollerede benchmarkbetingelser.
Evalueringen omfatter to komplementære faser.
One-Shot Vision Differential Evaluation (OSVDE):
I denne fase gennemgår AI-systemet og kliniker-deltagerne uafhængigt individuelle anonymiserede medicinske billeder og genererer rangeringslister over potentielle diagnoser udelukkende baseret på visuelle træk. Evalueringen vil bruge cirka 11.500-15.000 anonymiserede medicinske billeder på tværs af flere medicinske specialer og sygdomskategorier med verificerede referencediagnoser.
Multi-Step Conversational Non-Inferiority Evaluation (MSCNE):
I denne fase fuldfører AI-systemet og klinikere diagnostiske opgaver ved hjælp af semi-syntetiske patientsimuleringer afledt af anonymiserede medicinske billeder. Disse simuleringer giver struktureret klinisk information gennem samtalebaserede interaktioner, hvilket muliggør vurdering af diagnostisk ræsonnement på tværs af flere trin. Cirka 380-500 simulerede tilfælde vil blive evalueret.
Cirka 10-30 specialcertificerede klinikere vil deltage i undersøgelsen. Klinikere vil fuldføre diagnostiske evalueringssessioner remote og vil give differentialdiagnoser for udvalgte billed- og simuleringstilfælde. Menneskelige deltagere udgøres udelukkende af klinikere, der leverer diagnostiske svar. Billeddatasættene og syntetiske tilfælde fungerer som studiemateriale og betragtes ikke som deltagere.
Alle billeder brugt i undersøgelsen er anonymiserede og stammer fra offentligt tilgængelige kilder eller datasæt, der opfylder anonymiseringsstandarder. Yderligere forbehandlingstrin sikrer fjernelse af eventuel potentielt identificerbar information før inklusion i forskningsdatasættet.
AI-systemet evalueres i en offline forskningsmiljø og bruges ikke til at guide virkelig klinisk pleje eller patienthåndtering. Undersøgelsen er designet som en benchmark præstationsevaluering før eventuel prospektiv validering involverende rigtige patienter.
Primære udfaldsmål inkluderer diagnostiske nøjagtighedsmål såsom Top-1 diagnostisk nøjagtighed, defineret som andelen af tilfælde, hvor AI-systemets primære diagnose matcher referencediagnosen. Sekundære udfald inkluderer Top-5 diagnostisk nøjagtighed, kalibreringsmål, sensitivitet og specificitet på tværs af sygdomskategorier, og tid-til-diagnose mål i samtalebaserede diagnostiske scenarier.
Dataanalyse vil estimere diagnostisk nøjagtighed med konfidensintervaller og sammenligne AI-systemets præstation med klinikerpræstation ved hjælp af parrede statistiske tests og non-inferioritetsanalyser.
Klinikersvar registreres ved hjælp af anonyme studieidentifikatorer, og kun aggregerede præstationsresultater vil blive rapporteret. Ingen identificerbar information om klinikere eller patienter vil blive indsamlet eller offentliggjort.
Undersøgelsens varighed forventes at være cirka seks måneder, inklusive datapreparation, kliniker evalueringssessioner og statistisk analyse.
Protokollen ID 1026 er blevet verificeret som Undtaget ifølge 45CFR46.104(d) Ex den 03/10/2026 af Solutions IRB (855) 226-4472 (www.solutionsirb.com)
Undersøgelsestype
Tilmelding (Anslået)
Kontakter og lokationer
Studiekontakt
- Navn: Luis R Soenksen, MSE, PhD
- Telefonnummer: (617) 936-9293
- E-mail: soenksen@nollahealth.com
Undersøgelse Kontakt Backup
- Navn: Sean Geiger, B.S.
- Telefonnummer: (412) 412-8786
- E-mail: sean@nollahealth.com
Studiesteder
-
-
New York
-
New York, New York, Forenede Stater, 10003
- Rekruttering
- Nolla Health (Magic Health Inc.)
-
Kontakt:
- Sean Geiger, B.S.
- Telefonnummer: (412) 412-8786
- E-mail: sean@nollahealth.com
-
Kontakt:
- Luis R Soenksen, MSE, PhD
- Telefonnummer: (617)936-9293
- E-mail: soenksen@nollahealth.com
-
Ledende efterforsker:
- Luis R Soenksen, MSE, PhD
-
Underforsker:
- Sean Geiger, B.S.
-
Underforsker:
- Luis Wenus
-
-
Deltagelseskriterier
Berettigelseskriterier
Aldre berettiget til at studere
- Voksen
- Ældre voksen
Tager imod sunde frivillige
Prøveudtagningsmetode
Studiebefolkning
Beskrivelse
Inklusionskriterier:
- Aktivt fagrådsgodkendt certifikat i Dermatologi, Intern Medicin, Øre-næse-hals-lægevidenskab, Gynækologi, Ortopædkirurgi, Pædiatri, Geriatri, Akutmedicin, Oftalmologi, Psykiatri, Endokrinologi, Almen Medicin eller et tæt beslægtet speciale
- Alder 18 år eller ældre
- Evne til at gennemføre diagnostiske evalueringssessioner remote ved hjælp af en computer eller tablet med pålidelig internetadgang
Eksklusionskriterier:
- Tab af aktivt fagrådsgodkendt certifikat i et kvalificeret speciale
- Ude af stand til at gennemføre evalueringssessionen remote
Studieplan
Hvordan er undersøgelsen tilrettelagt?
Design detaljer
Kohorter og interventioner
Gruppe / kohorte |
Intervention / Behandling |
|---|---|
|
Kliniker Deltagere
Licenserede klinikere, der deltager i diagnostiske evalueringsopgaver ved hjælp af anonymiserede medicinske billeder og semi-syntetiske patientsimuleringer for at vurdere diagnostisk nøjagtighed.
Klinikere leverer differentialdiagnoser til benchmark-sammenligning med et AI-diagnostisk system.
|
AIMD.1 (også kendt som NollaMD agent) er et multimodal kunstig intelligens (AI) diagnostisk system designet til at generere differentialdiagnoser baseret på analyse af medicinske billeder og struktureret klinisk information.
I denne undersøgelse evalueres systemet ved hjælp af anonymiserede medicinske billeder og semi-syntetiske patientsimuleringer under kontrollerede forskningsbetingelser.
AI-systemet genererer rangeret diagnostisk output og tilhørende tillidsscorer, som sammenlignes med referencediagnoser og kliniker præstationsmål.
Systemet evalueres i en offline forskningsmiljø.
AI-output bruges ikke til klinisk beslutningstagning, patienthåndtering eller reel medicinsk behandling.
Andre navne:
|
Hvad måler undersøgelsen?
Primære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Top-1 Diagnostisk Nøjagtighed
Tidsramme: Ved afslutningen af diagnostiske evalueringer (op til 6 måneder)
|
Andelen af evaluerede tilfælde, hvor den primære diagnose genereret af AI Diagnostic System matcher reference- (ground truth) diagnosen.
Nøjagtigheden beregnes på tværs af de-identificerede medicinske billedtilfælde og semi-syntetiske patientsimuleringstilfælde og sammenlignes med klinikerens præstation.
|
Ved afslutningen af diagnostiske evalueringer (op til 6 måneder)
|
Sekundære resultatmål
Resultatmål |
Foranstaltningsbeskrivelse |
Tidsramme |
|---|---|---|
|
Top-5 diagnostisk nøjagtighed
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
Andel af evaluerede tilfælde, hvor den korrekte referencediagnose forekommer blandt de fem øverste rangerede diagnoser genereret af AI Diagnostic System.
|
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
|
Diagnostisk nøjagtighed af kliniker-deltagere
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
Andelen af evaluerede tilfælde, hvor den kliniske deltagers primære diagnose stemmer overens med referencediagnosen, beregnet på tværs af tildelte billed- og simuleringscases.
|
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
|
AI-diagnostisk nøjagtigheds ikke-underlegenhed sammenlignet med klinikere
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
Forskellen i Top-1 diagnostisk nøjagtighed mellem AI-diagnosesystemet og kliniker-deltagerne.
Ikke-underlegenhed vil blive vurderet ved hjælp af en foruddefineret margin på 5%.
|
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
|
Kalibrering af AI-diagnostisk tillid
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
Kalibreringspræstation af AI-genererede diagnostiske tillidsscores vurderet ved brug af Forventet Kalibreringsfejl (ECE).
|
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
|
Arealet under Receiver Operating Characteristic-kurven (AUC) og Precision Recall-kurven (PRC)
Tidsramme: Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
Arealet under modtagerens driftskarakteristikkurve og præcisionstilbagekaldelseskurven for AI-diagnostisk klassificering på tværs af sygdomskategorier.
|
Ved afslutning af diagnostiske evalueringer (op til 6 måneder)
|
|
Tid-til-diagnose i Konversationssimuleringer
Tidsramme: Ved afslutningen af simulationsvurderinger (op til 6 måneder)
|
Antallet af samtaleomgange, der kræves af AI-systemet og kliniker-deltagerne for at nå en endelig diagnose i semi-syntetiske patient-simuleringsscenarier.
|
Ved afslutningen af simulationsvurderinger (op til 6 måneder)
|
Samarbejdspartnere og efterforskere
Efterforskere
- Ledende efterforsker: Luis R Soenksen, MSE, PhD, Nolla Health
Datoer for undersøgelser
Studer store datoer
Studiestart (Faktiske)
Primær færdiggørelse (Anslået)
Studieafslutning (Anslået)
Datoer for studieregistrering
Først indsendt
Først indsendt, der opfyldte QC-kriterier
Først opslået (Faktiske)
Opdateringer af undersøgelsesjournaler
Sidste opdatering sendt (Faktiske)
Sidste opdatering indsendt, der opfyldte kvalitetskontrolkriterier
Sidst verificeret
Mere information
Begreber relateret til denne undersøgelse
Nøgleord
Andre undersøgelses-id-numre
- NH-OSVDE-MSCNE-1026
Plan for individuelle deltagerdata (IPD)
Planlægger du at dele individuelle deltagerdata (IPD)?
IPD-planbeskrivelse
Lægemiddel- og udstyrsoplysninger, undersøgelsesdokumenter
Studerer et amerikansk FDA-reguleret lægemiddelprodukt
Studerer et amerikansk FDA-reguleret enhedsprodukt
Disse oplysninger blev hentet direkte fra webstedet clinicaltrials.gov uden ændringer. Hvis du har nogen anmodninger om at ændre, fjerne eller opdatere dine undersøgelsesoplysninger, bedes du kontakte register@clinicaltrials.gov. Så snart en ændring er implementeret på clinicaltrials.gov, vil denne også blive opdateret automatisk på vores hjemmeside .
Kliniske forsøg med Differential diagnose
-
Tang-Du HospitalRekrutteringBrunt fedt og muskelmetabolisk | Differential diagnoseKina
-
National Taiwan University HospitalAfsluttetStød | Nødsituationer | Ultralyd | Kritisk pleje | Differential diagnoseTaiwan
-
University Hospital, GrenobleSociété Française d'Anesthésie et de RéanimationAfslutteteFast Diagnosis Performance in Guiding First Aid Resuscitation and HemostasisFrankrig
-
Mahidol UniversityKorean Association for the Study of Intestinal DiseasesRekrutteringCrohns sygdom | Tarmtuberkulose | Differential diagnoseThailand
-
Zagazig UniversityRekrutteringof Lung Ultrasound in Diagnosis of Acute Respiratory Distress SyndromeEgypten
Kliniske forsøg med AI Diagnostisk System (AIMD.1)
-
Ruijin HospitalFudan University; Affiliated Hospital of Jiangnan University; Shanghai 10th... og andre samarbejdspartnereRekruttering
-
Tsinghua UniversityIkke rekrutterer endnuBiomedicinsk forskning | Kunstig intelligens (AI)Kina
-
The Third Xiangya Hospital of Central South UniversityRekruttering
-
The Hong Kong Polytechnic UniversityIkke rekrutterer endnuNethindesygdom | Øjensygdom | Oftalmologi | AI-agent | Store sprogmodellerKina
-
Qilu Hospital of Shandong UniversityThe Affiliated Hospital of Qingdao University; Shandong Provincial Hospital og andre samarbejdspartnereRekrutteringDe ondartede læsioner og ikke-maligne læsioner i bugspytkirtlen, galdekanalen, leveren og lymfeknuderneKina
-
Centre hospitalier de l'Université de Montréal...Roupen Djinbachian, MD; Mahsa Taghiakbari, MD PHDIkke rekrutterer endnuColon polyp | Kunstig intelligensCanada
-
Qun ZhaoAfsluttetGastrointestinale stromale tumorer | Gastriske subepiteliale tumorer | Kunstig intelligens (AI) | Gastrisk Leiomyom | Multimodal billeddannelseKina
-
Sun Yat-sen UniversityUkendt
-
Sun Yat-sen UniversityRekruttering