Denne siden ble automatisk oversatt og nøyaktigheten av oversettelsen er ikke garantert. Vennligst referer til engelsk versjon for en kildetekst.

Utvikling av et naturlig språkbehandlingsverktøy for å muliggjøre klinisk forskning innen akuttmedisin (NLP-DeVal)

Utvikling og validering av et naturlig språkbehandlingsverktøy for å muliggjøre klinisk forskning innen akutt- og akuttmedisin: Retrospektiv kohortstudie

Målet med denne retrospektive kohortstudien er å utvikle og validere en språkmodell som kan tolke innholdet i akuttmottakets elektroniske journaler og trekke ut relevant informasjon til forskningsformål hos alle voksne pasienter som ankom de deltakende akuttmottakene i løpet av en treårsperiode. .

Hovedspørsmålet den tar sikte på å besvare er: er språkmodellen i stand til å tolke innholdet i akuttmottakets elektroniske journaler og trekke ut den etterspurte informasjonen fra dem slik at den kan brukes til å gjøre nøyaktige analyser og spådommer?

Studien er retrospektiv og data vil automatisk trekkes ut fra medisinske helsejournaler.

Studieoversikt

Status

Har ikke rekruttert ennå

Forhold

Intervensjon / Behandling

Detaljert beskrivelse

BAKGRUNN OG BEGRUNDELSE FOR STUDIEN

Å drive klinisk og kvalitetsvurderingsforskning innen akuttmedisin er like vanskelig som det er viktig. Det er vanskelig fordi det store antallet pasienter som må behandles og den kroniske mangelen på personale gjør ad hoc-datainnsamling upraktisk. Det er viktig fordi forskning til syvende og sist gjør det mulig for legevakt og sykepleiere å basere sin praksis på bevis innhentet i deres egne, unike omgivelser, i motsetning til bevis innhentet i fjerntliggende sammenhenger, slik det er vanlig i dag.

Den eneste måten å bygge bro over gapet mellom forskningsbehov og tilgjengeligheten av robuste data er å trekke ut data direkte fra de elektroniske helsejournalene (EPJer) til akuttmottak, og unngå dedikert, tidkrevende datainnsamling. Dette er imidlertid en vanskelig oppgave, fordi den mest nyttige informasjonen er i fritekstformat (f.eks. tilstedeværelse av tegn og symptomer, mistenkt og bekreftet diagnose, anamnese). Slike omstendigheter og behov krever et pålitelig verktøy for naturlig språkbehandling (NLP) for å utlede svært konsistente data fra fritekst.

I dag finnes det store språkmodeller som kan tolke naturlig språk nøyaktig. Disse modellene er trent på enorme mengder generell kunnskap hentet for det meste fra Internett, så ytelsen deres på mer spesialiserte områder, for eksempel det medisinske domenet, er kanskje ikke optimal.

Denne studien er en del av et større prosjekt kalt eCREAM (enabling Clinical Research in Emergency and Acute-care Medicine), og har som mål å utvikle og validere en språkmodell (kalt eCREAM_LM) ​​for seks språk som kan tolke innholdet i akuttmottak EPJer og hente ut relevant informasjon til forskningsformål.

METODER

Studien er en observasjons-, multisenter-, retrospektiv, 24-måneders studie. Tretti sentre vil delta i studien: 13 fra Italia, 4 fra Polen, 3 fra Hellas, Slovakia, Slovenia og Storbritannia, og 1 fra Sveits. Sentrene får ingen kompensasjon, men utgiftene dekkes av prosjektmidler.

Utvikling og validering av eCREAM_LM-modellen.

eCREAM_LM vil utvikles gjennom opplæring og finjustering av den beste overordnede modellen, blant de åpen kildekode, og vil gå i delvis parallelle faser. Kandidatmodeller vil bli eksponert for en enorm mengde (milliarder) medisinske tekster fra vitenskapelig litteratur eller andre offentlige kilder. Samtidig vil modellene også bli eksponert for en massiv mengde (millioner) fritekstnotater hentet fra journaler som er i bruk ved deltakende sykehus. Vi vil deretter gå videre til finjustering, hvor en stor mengde (tusenvis) av kliniske notater, hentet, nok en gang, fra medisinske journaler til deltakende sentre, vil bli brukt. Disse notatene vil bli kommentert av erfarne leger, som består i å trekke ut informasjon fra notatene for å fylle ut dataelementene som er oppført i et virtuelt datainnsamlingsskjema (vCRF). vCRF ble opprettet for en relatert studie og inneholder et sett med variabler som er nyttige for å forutsi sykehusinnleggelse av pasienter med dyspné eller forbigående bevissthetstap, som er målet med den relaterte studien. I den nåværende studien vil vCRF fungere som et verktøy for å validere språkmodellen.

Validering av eCREAM_LM vil bli utført ved å bruke et sett med 1000 kliniske notater annotert som beskrevet ovenfor, men ikke brukt i utviklingsfasen. Disse notatene vil bli sendt til eCREAM_LM-modellen med oppgaven å kompilere vCRF. Overensstemmelsen i utfylling av vCRF mellom ekspertleger og eCREAM_LM vil være målet for endelig validering av eCREAM_LM.

Datainnsamling og anonymisering

Hvert deltakende sykehus vil gi fritekstnotater i journalene til 150-300 000 voksne pasienter behandlet mellom 2021 og 2023. Notater som refererer til ulike aspekter ved samme pasient (f.eks. historie, objektiv undersøkelse, testresultater) vil bli skilt fra hverandre slik at det vil være umulig å rekonstruere den fullstendige profilen til pasienten. I tillegg vil notatene bli strippet for enhver referanse til pasienten (f.eks. fornavn, etternavn, fødselsdato) og kontekst (f.eks. sykehus, dato og tidspunkt for ankomst til senteret). Denne prosessen minimerer sannsynligheten for å identifisere pasienter på nytt og maksimerer beskyttelsen av rettighetene deres. Sannsynligheten for å re-identifisere en pasient i en database avhenger av hvor unike hans eller hennes egenskaper er fra andre individer i databasen. Sannsynligheten for å ha unike, og derfor identifiserbare, pasienter øker med mengden informasjon som er tilgjengelig i databasen og avtar med størrelsen. Ved å fjerne all personlig og kontekstuell informasjon fra kliniske notater og skille hvert notat fra de andre, vil hvert notat kun rapportere noen få kjennetegn ved pasienten. I tillegg skal data samlet inn fra sykehus i samme land slås sammen slik at det blir én stor database for hvert språk. Dette nuller effektivt ut sannsynligheten for at det finnes individer som er unikt identifiserbare fra notatene.

Til slutt, for å utelukke muligheten for at notatene vil inneholde informasjon om tredjeparter, som navn og telefonnumre til pasientenes pårørende, vil en sertifisert anonymiseringsprogramvare, spesielt utviklet for å fjerne personopplysninger fra fritekst, installeres på hvert sykehus.

Når de er anonymisert, vil dataene bli sentralisert for analyse og vil også bli lastet opp til store europeiske språkressursdelingsplattformer i det vitenskapelige samfunnet.

Statistisk analyse

I eCREAM_LM-valideringen vil vi vurdere samsvaret mellom ekspertleger og eCREAM_LM selv ved utfylling av vCRF. Dataene vil referere til et utvalg på 1000 notater for hvert studiespråk. Konkordans vil bli vurdert for hver variabel i vCRF ved å bruke Cohens κ som et mål på samsvar. eCREAM_LM vil bli ansett som gyldig hvis Cohens κ er større enn 0,75.

Prøvestørrelse

Forutsatt en utmerket overensstemmelse (κ=0,80) mellom eCREAM_LM og de erfarne legevaktslegene for å fullføre vCRF, vil en prøve på minst 735 notater være nødvendig for å oppnå tilstrekkelig presisjon til å garantere en god overensstemmelse (nedre konfidensgrense på 95 % konfidensintervall på Cohens κ større enn 0,75). Dette tallet er den maksimale utvalgsstørrelsen oppnådd under forskjellige scenarier som involverer et forskjellig antall kategorier (2 til 5) for hver variabel og forskjellige marginale fordelinger av kategoriene i utvalget, inkludert balanserte fordelinger (f.eks. 5 kategorier med 20 % av utvalget i hver kategori) og svært ubalanserte resultater (f.eks. 5 kategorier med 1,8 %, 7,3 %, 16,4 %, 29,1 % og 45,5 % av utvalget). Siden informasjon av interesse kan mangle i noen notater, vil vi utføre datavalideringsvurderingen på 1000 sedler.

Studietype

Observasjonsmessig

Registrering (Antatt)

300000

Kontakter og plasseringer

Denne delen inneholder kontaktinformasjon for de som utfører studien, og informasjon om hvor denne studien blir utført.

Studiekontakt

Studer Kontakt Backup

Studiesteder

      • Milan, Italia, 20156
        • Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Deltakelseskriterier

Forskere ser etter personer som passer til en bestemt beskrivelse, kalt kvalifikasjonskriterier. Noen eksempler på disse kriteriene er en persons generelle helsetilstand eller tidligere behandlinger.

Kvalifikasjonskriterier

Alder som er kvalifisert for studier

  • Voksen
  • Eldre voksen

Tar imot friske frivillige

Ja

Prøvetakingsmetode

Sannsynlighetsprøve

Studiepopulasjon

Alle voksne pasienter som ankom deltakende akuttmottak mellom 1. januar 2021 og 31. desember 2023

Beskrivelse

Inklusjonskriterier:

  • Voksen
  • Ankom akuttmottaket mellom 1. januar 2021 og 31. desember 2023

Ekskluderingskriterier:

  • Ingen

Studieplan

Denne delen gir detaljer om studieplanen, inkludert hvordan studien er utformet og hva studien måler.

Hvordan er studiet utformet?

Designdetaljer

Kohorter og intervensjoner

Gruppe / Kohort
Intervensjon / Behandling
Voksne som oppsøkte akuttmottaket
ingen inngrep

Hva måler studien?

Primære resultatmål

Resultatmål
Tiltaksbeskrivelse
Tidsramme
Samsvar i utfylling av det virtuelle saksrapportskjemaet
Tidsramme: 1 måned
Nivå av samsvar ved utfylling av det virtuelle saksrapportskjemaet mellom ekspertlegene og eCREAM_LM språkmodellen
1 måned

Samarbeidspartnere og etterforskere

Det er her du vil finne personer og organisasjoner som er involvert i denne studien.

Etterforskere

  • Hovedetterforsker: Guido Bertolini, Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Studierekorddatoer

Disse datoene sporer fremdriften for innsending av studieposter og sammendragsresultater til ClinicalTrials.gov. Studieposter og rapporterte resultater gjennomgås av National Library of Medicine (NLM) for å sikre at de oppfyller spesifikke kvalitetskontrollstandarder før de legges ut på det offentlige nettstedet.

Studer hoveddatoer

Studiestart (Antatt)

1. juni 2024

Primær fullføring (Antatt)

1. mars 2025

Studiet fullført (Antatt)

1. mai 2025

Datoer for studieregistrering

Først innsendt

26. januar 2024

Først innsendt som oppfylte QC-kriteriene

26. januar 2024

Først lagt ut (Faktiske)

5. februar 2024

Oppdateringer av studieposter

Sist oppdatering lagt ut (Faktiske)

4. april 2024

Siste oppdatering sendt inn som oppfylte QC-kriteriene

3. april 2024

Sist bekreftet

1. januar 2024

Mer informasjon

Begreper knyttet til denne studien

Ytterligere relevante MeSH-vilkår

Andre studie-ID-numre

  • 8780

Plan for individuelle deltakerdata (IPD)

Planlegger du å dele individuelle deltakerdata (IPD)?

JA

IPD-planbeskrivelse

De anonymiserte, individuelle deltakerdataene vil bli lastet opp til de store europeiske språkressursdelingsplattformene i det vitenskapelige samfunnet, inkludert European Language Grid-depotet (https://live.europeanlanguage-grid.eu), CLARIN Virtual Language Observatory (https: //vlo.clarin.eu/?2), og initiativet European Language Equality (ELE) (https://european-language-equality.eu).

IPD-delingstidsramme

Fra desember 2025

IPD-deling Støtteinformasjonstype

  • STUDY_PROTOCOL
  • CSR

Legemiddel- og utstyrsinformasjon, studiedokumenter

Studerer et amerikansk FDA-regulert medikamentprodukt

Nei

Studerer et amerikansk FDA-regulert enhetsprodukt

Nei

Denne informasjonen ble hentet direkte fra nettstedet clinicaltrials.gov uten noen endringer. Hvis du har noen forespørsler om å endre, fjerne eller oppdatere studiedetaljene dine, vennligst kontakt register@clinicaltrials.gov. Så snart en endring er implementert på clinicaltrials.gov, vil denne også bli oppdatert automatisk på nettstedet vårt. .

Kliniske studier på Nødsmedisin

Kliniske studier på ingen inngrep

3
Abonnere