Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Sviluppo di uno strumento di elaborazione del linguaggio naturale per abilitare la ricerca clinica nella medicina d'urgenza (NLP-DeVal)

Sviluppo e validazione di uno strumento di elaborazione del linguaggio naturale per consentire la ricerca clinica nella medicina d'emergenza e di terapia intensiva: studio di coorte retrospettivo

L'obiettivo di questo studio di coorte retrospettivo è quello di sviluppare e validare un modello linguistico in grado di interpretare il contenuto delle cartelle cliniche elettroniche del pronto soccorso ed estrarre informazioni rilevanti per scopi di ricerca in tutti i pazienti adulti arrivati ​​ai dipartimenti di emergenza partecipanti in un periodo di tre anni .

La domanda principale a cui si propone di rispondere è: il modello linguistico è in grado di interpretare i contenuti delle cartelle cliniche elettroniche del pronto soccorso ed estrarre da esse le informazioni richieste in modo che possano essere utilizzate per effettuare analisi e previsioni accurate?

Lo studio è retrospettivo e i dati verranno estratti automaticamente dalle cartelle cliniche.

Panoramica dello studio

Stato

Reclutamento

Intervento / Trattamento

Descrizione dettagliata

BACKGROUND E MOTIVAZIONE DELLO STUDIO

Condurre ricerche sulla valutazione clinica e della qualità dell’assistenza in medicina d’urgenza è tanto difficile quanto importante. È difficile perché il vasto numero di pazienti che necessitano di essere curati e la cronica carenza di personale rendono impraticabile la raccolta di dati ad hoc. È importante perché, alla fine, la ricerca consente ai medici e agli infermieri di emergenza di basare la propria pratica su evidenze ottenute nel proprio contesto unico, in contrapposizione a evidenze ottenute in contesti lontani, come avviene comunemente oggi.

L’unico modo per colmare il divario tra le esigenze di ricerca e la disponibilità di dati affidabili è estrarre i dati direttamente dalle cartelle cliniche elettroniche (EHR) dei dipartimenti di emergenza, evitando raccolte dati dedicate e dispendiose in termini di tempo. Questo è un compito difficile, tuttavia, perché le informazioni più utili sono in formato testo libero (ad esempio, presenza di segni e sintomi, diagnosi sospetta e confermata, anamnesi). Tali circostanze ed esigenze richiedono uno strumento affidabile di elaborazione del linguaggio naturale (NLP) per ricavare dati altamente coerenti dal testo libero.

Oggi sono disponibili modelli linguistici su larga scala in grado di interpretare accuratamente il linguaggio naturale. Tuttavia, questi modelli si basano su enormi quantità di conoscenze generali prese principalmente da Internet, quindi le loro prestazioni in aree più specializzate, come il dominio medico, potrebbero non essere ottimali.

Il presente studio fa parte di un progetto più ampio chiamato eCREAM (abilitante la ricerca clinica in medicina d'emergenza e di cura acuta) e mira a sviluppare e convalidare un modello linguistico (chiamato eCREAM_LM) ​​per sei lingue in grado di interpretare i contenuti delle cartelle cliniche elettroniche del pronto soccorso e estrarre informazioni rilevanti per scopi di ricerca.

METODI

Lo studio è uno studio osservazionale, multicentrico, retrospettivo, della durata di 24 mesi. Allo studio parteciperanno trenta centri: 13 dall'Italia, 4 dalla Polonia, 3 dalla Grecia, Slovacchia, Slovenia e Regno Unito e 1 dalla Svizzera. I centri non riceveranno alcun compenso, ma le loro spese saranno coperte dai fondi del progetto.

Sviluppo e validazione del modello eCREAM_LM.

eCREAM_LM sarà sviluppato attraverso la formazione e la messa a punto del miglior modello complessivo, tra quelli open-source, e procederà per fasi parzialmente parallele. I modelli candidati saranno esposti a un'enorme quantità (miliardi) di testi medici provenienti dalla letteratura scientifica o da altre fonti pubbliche. Contemporaneamente, i modelli saranno anche esposti a un’enorme quantità (milioni) di note di testo libero ottenute dalle cartelle cliniche in uso negli ospedali partecipanti. Si passerà poi al fine tuning, dove verranno utilizzate una grande quantità (migliaia) di note cliniche, ricavate, ancora una volta, dalle cartelle cliniche dei centri partecipanti. Queste note verranno annotate da medici esperti, operazione che consiste nell'estrarre informazioni dalle note per compilare i dati elencati in un modulo di raccolta dati virtuale (vCRF). La vCRF è stata creata per uno studio correlato e contiene un insieme di variabili utili nel predire il ricovero in ospedale di pazienti con dispnea o perdita transitoria di coscienza, che costituisce l'obiettivo del relativo studio. Nel presente studio, la vCRF servirà come strumento per validare il modello linguistico.

La validazione di eCREAM_LM verrà effettuata utilizzando un set di 1.000 note cliniche annotate come sopra descritto, ma non utilizzate nella fase di sviluppo. Tali note verranno sottoposte al modello eCREAM_LM con il compito di compilare la vCRF. La concordanza nella compilazione della vCRF tra i medici esperti e l'eCREAM_LM sarà la misura della validazione finale dell'eCREAM_LM.

Raccolta dati e anonimizzazione

Ciascun ospedale partecipante fornirà note di testo gratuite contenute nelle cartelle cliniche di 150-300.000 pazienti adulti trattati tra il 2021 e il 2023. Le note riferite ad aspetti diversi dello stesso paziente (es. anamnesi, esame obiettivo, risultati dei test) saranno separate le une dalle altre in modo che non sia possibile ricostruire il profilo completo del paziente. Inoltre, le note saranno private di qualsiasi riferimento al paziente (es. nome, cognome, data di nascita) e contesto (es. ospedale, data e ora di arrivo al centro). Questo processo riduce al minimo la probabilità di reidentificazione dei pazienti e massimizza la protezione dei loro diritti. La probabilità di identificare nuovamente un paziente all'interno di un database dipende da quanto le sue caratteristiche siano uniche rispetto ad altri individui nel database. La probabilità di avere pazienti unici, e quindi identificabili, aumenta con la quantità di informazioni disponibili nel database e diminuisce con la sua dimensione. Rimuovendo dalle note cliniche tutte le informazioni personali e contestuali e separando ciascuna nota dalle altre, ciascuna nota riporterà solo alcune caratteristiche del paziente. Inoltre, i dati raccolti dagli ospedali dello stesso paese verranno uniti in modo che ci sia un unico grande database per ciascuna lingua. Ciò di fatto azzera la probabilità che ci siano individui identificabili in modo univoco dalle note.

Infine, per escludere la possibilità che le note contengano informazioni di terzi, come nomi e numeri di telefono dei parenti dei pazienti, in ciascun ospedale verrà installato un software di anonimizzazione certificato, appositamente progettato per rimuovere i dati personali dai testi liberi.

Una volta resi anonimi, i dati saranno centralizzati per l'analisi e saranno anche caricati sulle principali piattaforme europee di condivisione di risorse linguistiche nella comunità scientifica.

analisi statistica

Nella validazione di eCREAM_LM valuteremo la concordanza tra i medici esperti d'urgenza e l'eCREAM_LM stesso nella compilazione della vCRF. I dati faranno riferimento ad un campione di 1.000 note per ciascuna lingua di studio. La concordanza sarà valutata per ciascuna variabile della vCRF utilizzando la κ di Cohen come misura di concordanza. L'eCREAM_LM sarà considerato valido se il κ di Cohen è maggiore di 0,75.

Misura di prova

Supponendo un ottimo accordo (κ=0,80) tra eCREAM_LM e i medici d'urgenza esperti nel completare la vCRF, sarà necessario un campione di almeno 735 note per ottenere una precisione sufficiente a garantire un buon accordo (limite di confidenza inferiore dell'intervallo di confidenza del 95% di κ di Cohen maggiore di 0,75). Questo numero rappresenta la dimensione massima del campione ottenuta in diversi scenari che coinvolgono un numero diverso di categorie (da 2 a 5) per ciascuna variabile e diverse distribuzioni marginali delle categorie nel campione, comprese distribuzioni bilanciate (ad esempio, 5 categorie con il 20% del campione in ciascuna categoria) e risultati molto sbilanciati (ad esempio, 5 categorie con 1,8%, 7,3%, 16,4%, 29,1% e 45,5% del campione). Poiché in alcune note potrebbero mancare informazioni di interesse, eseguiremo la valutazione di convalida dei dati su 1.000 note.

Tipo di studio

Osservativo

Iscrizione (Stimato)

300000

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Contatto studio

Backup dei contatti dello studio

Luoghi di studio

      • Catania, Italia
        • Non ancora reclutamento
        • AOU Policlinico 'G.Rodolico - San Marco'
        • Contatto:
      • Milan, Italia
      • Milan, Italia
        • Non ancora reclutamento
        • ASST Grande Ospedale Metropolitano Niguarda
        • Contatto:
      • Orbassano, Italia
        • Non ancora reclutamento
        • Ospedale San Luigi Gonzaga
        • Contatto:
          • Valeria Caramello
          • Numero di telefono: v.caramello@sa +39 011 90261
      • Pozzuoli, Italia
        • Non ancora reclutamento
        • Ospedale Santa Maria delle Grazie
        • Contatto:
      • Torino, Italia
      • Vercelli, Italia
        • Reclutamento
        • Ospedale Sant'Andrea
        • Contatto:
    • Milan
      • Milan, Milan, Italia, 20156
        • Non ancora reclutamento
        • Istituto di Ricerche Farmacologiche Mario Negri IRCCS
        • Contatto:

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

  • Adulto
  • Adulto più anziano

Accetta volontari sani

Metodo di campionamento

Campione di probabilità

Popolazione di studio

Tutti i pazienti adulti arrivati ​​ai dipartimenti di emergenza partecipanti tra il 1 gennaio 2021 e il 31 dicembre 2023

Descrizione

Criterio di inclusione:

  • Adulto
  • Arrivato al pronto soccorso tra il 1 gennaio 2021 e il 31 dicembre 2023

Criteri di esclusione:

  • Nessuno

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

Coorti e interventi

Gruppo / Coorte
Intervento / Trattamento
Adulti che si sono recati al pronto soccorso
nessun intervento

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato
Misura Descrizione
Lasso di tempo
Concordanza nella compilazione del modulo di denuncia virtuale
Lasso di tempo: 1 mese
Livello di concordanza nella compilazione della scheda di segnalazione virtuale tra i medici esperti e il modello linguistico eCREAM_LM
1 mese

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Investigatori

  • Investigatore principale: Guido Bertolini, Istituto Di Ricerche Farmacologiche Mario Negri

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Effettivo)

1 ottobre 2024

Completamento primario (Stimato)

1 gennaio 2027

Completamento dello studio (Stimato)

1 settembre 2027

Date di iscrizione allo studio

Primo inviato

26 gennaio 2024

Primo inviato che soddisfa i criteri di controllo qualità

26 gennaio 2024

Primo Inserito (Effettivo)

5 febbraio 2024

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

20 maggio 2026

Ultimo aggiornamento inviato che soddisfa i criteri QC

18 maggio 2026

Ultimo verificato

1 maggio 2025

Maggiori informazioni

Termini relativi a questo studio

Termini MeSH pertinenti aggiuntivi

Altri numeri di identificazione dello studio

  • 8780

Piano per i dati dei singoli partecipanti (IPD)

Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?

Descrizione del piano IPD

I dati anonimizzati dei singoli partecipanti verranno caricati sulle principali piattaforme europee di condivisione delle risorse linguistiche nella comunità scientifica, tra cui l'archivio European Language Grid (https://live.europeanlingual-grid.eu), l'Osservatorio virtuale del linguaggio CLARIN (https: //vlo.clarin.eu/?2) e l'iniziativa europea sull'uguaglianza linguistica (ELE) (https://european-lingual-equality.eu).

Periodo di condivisione IPD

A partire da dicembre 2025

Tipo di informazioni di supporto alla condivisione IPD

  • STUDIO_PROTOCOLLO
  • RSI

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

No

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

No

prodotto fabbricato ed esportato dagli Stati Uniti

No

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Prove cliniche su nessun intervento

Sottoscrivi