Questa pagina è stata tradotta automaticamente e l'accuratezza della traduzione non è garantita. Si prega di fare riferimento al Versione inglese per un testo di partenza.

Studio di acquisizione dati con intelligenza artificiale e fenotipizzazione di pazienti con embolia polmonare acuta (PEPITE)

Studio di acquisizione dati con intelligenza artificiale e fenotipizzazione di pazienti che presentavano embolia polmonare acuta

L'obiettivo iniziale è costruire e validare strumenti di intelligenza artificiale (apprendimento automatico ed elaborazione del linguaggio naturale) per acquisire e strutturare dati provenienti da referti medici presso il Centre Hospitalier Intercommunal de Toulon - la Seyne sur mer (CHITS). Questo progetto si baserà sul lavoro precedentemente svolto dal Dipartimento di Epidemiologia, Biostatistica e Dati Sanitari (DEBDS) presso il Centre Antoine Lacassagne (CAL) di Nizza, concentrandosi sui tumori al seno e alla tiroide. L'idea è quella di convalidare la trasferibilità di questi strumenti ad un'altra struttura con patologie e professionisti diversi, in particolare al dipartimento di medicina vascolare del CHITS.

Successivamente, lo scopo sarà quello di identificare fenotipi clinicamente rilevanti in pazienti con embolia polmonare acuta. Verranno utilizzati metodi di clustering gerarchico combinati con l'apprendimento non supervisionato (machine learning) per ottenere gruppi di pazienti omogenei alla diagnosi. Valutare la prognosi a 6 mesi (recidiva o ipertensione polmonare tromboembolica cronica), tenendo conto dei primi 3 mesi di trattamento anticoagulante, fornirebbe un aiuto al processo decisionale medico.

Questa ricerca comprenderà una parte retrospettiva e una parte prospettica. La parte retrospettiva includerà pazienti ricoverati al CHITS per embolia polmonare acuta dal 2019. Per la parte prospettica si prevede di includere pazienti con le stesse caratteristiche negli anni 2024 e 2025. Si prevede che saranno inclusi più di 2.500 pazienti.

Questa ricerca non avrà alcun impatto sull’attuale cura dei pazienti. I dati delle consultazioni e dei vari esami effettuati nell'ambito della cura verranno raccolti per sei mesi dopo la diagnosi al fine di raggiungere gli obiettivi della ricerca.

Panoramica dello studio

Stato

Reclutamento

Condizioni

Descrizione dettagliata

Contesto :

Intelligenza Artificiale: PNL, clustering e apprendimento non supervisionato:

L’Intelligenza Artificiale (AI) è un campo che combina l’informatica con i set di dati, con l’obiettivo di consentire a una macchina di imitare le capacità cognitive dell’essere umano. L’apprendimento automatico (ML) e il suo sottodominio deep learning, che utilizza strati di neuroni, sono due principali sottodomini dell’intelligenza artificiale. La differenza sta nell'addestramento di ciascun algoritmo. Due metodi distinti vengono utilizzati dal ML: l'apprendimento supervisionato, che prevede l'addestramento di un modello su dati di input e output noti per prevedere output futuri, e l'apprendimento non supervisionato comporta la scoperta di modelli nascosti e strutture intrinseche sottostanti nei dati di input. Anche l’elaborazione del linguaggio naturale (NLP) è un sottocampo dell’intelligenza artificiale, ma generalmente richiede che il machine learning sia efficace. La PNL elabora i dati linguistici del mondo reale per dargli un senso in modo che un computer possa comprenderli.

La PNL ha due fasi principali: pre-elaborazione dei dati e sviluppo di algoritmi. Linguaggi di programmazione come Python o R sono ampiamente utilizzati per queste tecniche.

Lo scopo dei metodi di clustering è raggruppare un insieme di individui in classi omogenee. I metodi non gerarchici possono essere utilizzati per classificare grandi quantità di dati ma richiedono di fissare in anticipo il numero di classi. I metodi gerarchici, che richiedono più tempo per essere elaborati, sono costituiti da una serie di partizioni nidificate rappresentate da un albero di clustering. Il numero ottimale di classi può essere determinato a posteriori leggendo l'albero. In presenza di un gran numero di individui, è comune combinare tecniche non gerarchiche e gerarchiche. Quando le classi non sono chiaramente conosciute in anticipo, i metodi di clustering vengono utilizzati con l'apprendimento non supervisionato (ML) [1]. I set di dati sono generalmente divisi in tre set di dati disgiunti: dati di training, utilizzati per addestrare gli algoritmi scelti; dati di validazione, utilizzati per verificare le prestazioni del risultato; e dati di test, utilizzati solo alla fine del processo.

Malattia tromboembolica venosa:

La malattia tromboembolica venosa (TEV) è una patologia comune la cui incidenza non è perfettamente conosciuta, ma aumenta con l'età, raggiungendo l'1% nei soggetti di età superiore ai 75 anni. In Francia, si stima che ogni anno oltre 100.000 persone sviluppino la TEV, responsabile tra 5.000 e 10.000 decessi. La trombosi venosa profonda (TVP) e l’embolia polmonare (PE) sono i due principali tipi di TEV. La TVP corrisponde all'occlusione parziale o totale di una vena profonda da parte di un trombo, il più delle volte localizzato agli arti inferiori. L'EP è definita come l'occlusione parziale o totale delle arterie polmonari o dei loro rami. Il rischio principale della TVP è l’insorgenza di EP, che può essere pericolosa per la vita. Altre complicanze specifiche della TEV e possibili esiti avversi comprendono la recidiva tromboembolica (TVP o EP), l'ipertensione polmonare tromboembolica cronica e la sindrome post-trombotica nella TVP. L’attuale gestione del TEV si basa principalmente sulla terapia anticoagulante. La durata del trattamento varia a seconda della stima del rischio di recidiva in caso di sospensione del trattamento, essenzialmente a seconda della presenza o meno di un precedente fattore di rischio maggiore [2]. In questo sottogruppo di pazienti con EP, in assenza di fattori di rischio maggiori, il rischio di recidiva è considerato intermedio e varia a seconda che l'evento sia un primo episodio o una recidiva, e se vi siano o meno sequele polmonari ostruttive [3]. Più recentemente, la strategia terapeutica è diventata più complessa, con l’inclusione di fattori di rischio minori che modulano la durata del trattamento senza prove rilevanti. Inoltre, indipendentemente dalla durata del trattamento, il dosaggio dell’anticoagulante oltre il sesto mese è incerto per gli Anticoagulanti Orali Diretti.

Ipotesi:

Questa ricerca è presentata sotto due assi distinti:

ASSE 1: Lo scopo di questo lavoro sarà inizialmente quello di sviluppare e validare strumenti di intelligenza artificiale, utilizzando ML e NLP, per acquisire e strutturare dati da referti medici testuali nel dipartimento di medicina vascolare del Centre Hospitalier Intercommunal de Toulon - la Seyne sur mer (CHITS). Questo progetto si baserà sul lavoro precedentemente svolto dal Dipartimento di Epidemiologia, Biostatistica e Dati Sanitari (DEBDS) presso il Centro Antoine Lacassagne (CAL) concentrandosi sui tumori al seno e alla tiroide [5,6,7]. L'idea è quella di convalidare la trasferibilità di questi strumenti ad un'altra struttura con patologie e professionisti diversi, in particolare il dipartimento di medicina vascolare del CHITS.

Implementare un metodo di acquisizione di dati strutturati utilizzando tecniche di intelligenza artificiale direttamente da referti medici testuali all’interno del nostro ospedale è una sfida. Se le sue prestazioni fossero dimostrate e questo strumento fosse implementato in modo permanente e sistematico, fornirebbe una fonte di informazioni facilmente sfruttabile. La diversità di campi e interessi nella ricerca clinica nel nostro stabilimento può rendere l’implementazione in altri dipartimenti un obiettivo raggiungibile. Per CHITS, questo è il primo passo nel processo di costruzione di un Health Data Warehouse (HDW).

ASSE 2: Successivamente, l'obiettivo sarà quello di utilizzare il database per identificare fenotipi clinicamente rilevanti nei pazienti con embolia polmonare acuta. Verranno utilizzati metodi di clustering gerarchico combinati con l'apprendimento non supervisionato (machine learning) per ottenere gruppi di pazienti omogenei alla diagnosi. Valutare la prognosi a 6 mesi (recidiva o ipertensione polmonare tromboembolica cronica), tenendo conto dei primi 3 mesi di trattamento anticoagulante, fornirebbe un aiuto al processo decisionale medico.

Un'analisi dell'evoluzione a sei mesi di gruppi omogenei di pazienti con embolia polmonare acuta, costruiti utilizzando metodi di clustering con apprendimento non supervisionato, non è mai stata condotta prima. Questo progetto innovativo all'interno di una grande infrastruttura ospedaliera offrirà probabilmente ai medici un aiuto decisionale e ai pazienti una forma di gestione terapeutica scientificamente validata.

Materiale e metodi :

Questa ricerca comprenderà una parte retrospettiva e una parte prospettica. La parte retrospettiva includerà i pazienti ricoverati al CHITS per embolia polmonare acuta dal 2019 (circa 1900 pazienti). Per la parte prospettica si prevede di includere pazienti con le stesse caratteristiche negli anni 2024 e 2025 (circa 765 pazienti). Se le informazioni individuali non sono disponibili o se il 25% dei pazienti si oppone al trattamento dei propri dati, in questo studio potrebbe essere potenzialmente analizzata una grande quantità di dati su oltre 2.500 pazienti. Questa ricerca non avrà alcun impatto sull’attuale cura dei pazienti. I dati delle consultazioni e dei vari esami effettuati nell'ambito della cura verranno raccolti per sei mesi dopo la diagnosi per raggiungere gli obiettivi della ricerca.

ASSE 1: Il metodo di acquisizione dei dati utilizzato in questa ricerca sarà duplice. I dati dei pazienti inclusi nella ricerca clinica verranno raccolti convenzionalmente utilizzando un case report form, quindi centralizzati e organizzati in un database di riferimento denominato "Gold Standard", e inseriti da un tecnico di ricerca clinica. La seconda tecnica di acquisizione dati, utilizzando metodi NLP, procederà in più fasi, parallelamente all'approccio precedente. Innanzitutto, all'estrazione dei referti medici (MR) in formato testo seguirà una fase di pseudonimizzazione. Il set di dati MR verrà quindi preparato per l'addestramento e la convalida rimuovendo caratteri speciali e identificando il segmento di interessi. Quindi, MR verrà annotato con BRAT per identificare i termini che verranno utilizzati per popolare il database. Gli script di formazione verranno applicati al 70% dei pazienti al fine di creare modelli di PNL. Durante questa fase di formazione verranno scritte regole mediche di post-elaborazione al fine di tradurre le informazioni identificate dai modelli in dati strutturati. Lo script così finalizzato viene applicato alla base di validazione con una valutazione delle sue prestazioni. Dopo eventuali modifiche necessarie, le prestazioni dello script finale vengono valutate nel database di test. Le prestazioni verranno valutate confrontando i dati ottenuti automaticamente con il database manuale Gold Standard.

ASSE 2: I metodi di clustering non supervisionato utilizzati in questo studio combinano metodi gerarchici e non gerarchici. Seguendo il clustering gerarchico ascendente, l'indice di Ward viene utilizzato per determinare il numero di gruppi di interesse. I centroidi di questi gruppi vengono quindi considerati per inizializzare un algoritmo di partizionamento, come l'algoritmo k-means. Una volta determinati i gruppi più rilevanti dal punto di vista medico, viene confrontata l'evoluzione a sei mesi (stabilità, aggravamento o progresso). Anche i fattori che influenzano la progressione durante i primi tre mesi di trattamento possono essere inclusi in un modello statistico, a seconda della loro capacità di prevedere l’aggravamento. Tutte queste esplorazioni dovrebbero fornire una base per il processo decisionale medico.

Tipo di studio

Osservativo

Iscrizione (Stimato)

2500

Contatti e Sedi

Questa sezione fornisce i recapiti di coloro che conducono lo studio e informazioni su dove viene condotto lo studio.

Contatto studio

Backup dei contatti dello studio

Luoghi di studio

      • Toulon, Francia, 83100
        • Reclutamento
        • centre hospitalier intercommunal Toulon La Seyne sur Mer - Internal and vascular medicine
        • Contatto:

Criteri di partecipazione

I ricercatori cercano persone che corrispondano a una certa descrizione, chiamata criteri di ammissibilità. Alcuni esempi di questi criteri sono le condizioni generali di salute di una persona o trattamenti precedenti.

Criteri di ammissibilità

Età idonea allo studio

  • Adulto
  • Adulto più anziano

Accetta volontari sani

No

Metodo di campionamento

Campione non probabilistico

Popolazione di studio

Questa ricerca comprenderà una parte retrospettiva e una parte prospettica. La parte retrospettiva includerà i pazienti ricoverati al CHITS per embolia polmonare acuta dal 2019 (circa 1900 pazienti). Per la parte prospettica si prevede di includere pazienti con le stesse caratteristiche negli anni 2024 e 2025.

Descrizione

Criterio di inclusione:

  • Età ≥ 18 anni;
  • Paziente con embolia polmonare acuta in CHITS (ricoverato o meno).

Criteri di esclusione:

  • Embolie polmonari sub-segmentali;
  • Opposizione del paziente.

Piano di studio

Questa sezione fornisce i dettagli del piano di studio, compreso il modo in cui lo studio è progettato e ciò che lo studio sta misurando.

Come è strutturato lo studio?

Dettagli di progettazione

Coorti e interventi

Gruppo / Coorte
Intervento / Trattamento
Paziente con embolia polmonare acuta
Paziente con embolia polmonare acuta nel Centre Hospitalier Intercommunal Toulon La Seyne sur Mer, ricoverato o meno dal 2019
Verranno utilizzati metodi di clustering gerarchico per formare gruppi omogenei di pazienti in base ai loro dati alla diagnosi: presenza o assenza di sintomi, dati clinici e biologici e presenza o assenza di fattori favorevoli. L'evoluzione del paziente a 6 mesi può rientrare nelle categorie: stabile, aggravamento o progresso, che sono determinate da eventi come recidiva, emorragia, sequele funzionali o morte.

Cosa sta misurando lo studio?

Misure di risultato primarie

Misura del risultato
Misura Descrizione
Lasso di tempo
ASSE 1 - Primario: sviluppare uno strumento robusto per acquisire dati strutturati direttamente da referti medici basati su testo
Lasso di tempo: 30 mesi
Lo strumento sarà implementato utilizzando metodi NLP, sviluppati principalmente in PYTHON. Le prestazioni dello strumento implementato verranno valutate confrontando i dati generati da questo strumento con i dati inseriti manualmente (database "Gold Standard").
30 mesi
ASSE 2 - Primario: identificare gruppi omogenei di pazienti in base alle loro caratteristiche mediche alla diagnosi, quindi confrontare la loro evoluzione a 6 mesi.
Lasso di tempo: 6 mesi
Verranno utilizzati metodi di clustering gerarchico per formare gruppi omogenei di pazienti in base ai loro dati alla diagnosi: presenza o assenza di sintomi, dati clinici e biologici e presenza o assenza di fattori favorevoli. L'evoluzione del paziente a 6 mesi può rientrare nelle categorie: stabile, aggravamento o progresso, che sono determinate da eventi come recidiva, emorragia, sequele funzionali o morte.
6 mesi

Misure di risultato secondarie

Misura del risultato
Misura Descrizione
Lasso di tempo
ASSE 2 – Secondario: determinare i fattori predittivi della progressione a 6 mesi entro i primi tre mesi di trattamento.
Lasso di tempo: 3 mesi
A priori verranno mantenuti i gruppi definiti per l'obiettivo primario. I fattori considerati durante i primi tre mesi di trattamento includeranno: dati clinici e biologici, presenza o assenza di sintomi, fattori favorevoli o complicanze.
3 mesi

Collaboratori e investigatori

Qui è dove troverai le persone e le organizzazioni coinvolte in questo studio.

Investigatori

  • Direttore dello studio: Jean-Noël POGGI, MD, Centre Hospitalier Intercommunal Toulon La Seyne sur Mer

Pubblicazioni e link utili

La persona responsabile dell'inserimento delle informazioni sullo studio fornisce volontariamente queste pubblicazioni. Questi possono riguardare qualsiasi cosa relativa allo studio.

Studiare le date dei record

Queste date tengono traccia dell'avanzamento della registrazione dello studio e dell'invio dei risultati di sintesi a ClinicalTrials.gov. I record degli studi e i risultati riportati vengono esaminati dalla National Library of Medicine (NLM) per assicurarsi che soddisfino specifici standard di controllo della qualità prima di essere pubblicati sul sito Web pubblico.

Studia le date principali

Inizio studio (Effettivo)

11 dicembre 2023

Completamento primario (Stimato)

1 luglio 2026

Completamento dello studio (Stimato)

1 luglio 2026

Date di iscrizione allo studio

Primo inviato

13 dicembre 2023

Primo inviato che soddisfa i criteri di controllo qualità

26 dicembre 2023

Primo Inserito (Effettivo)

28 dicembre 2023

Aggiornamenti dei record di studio

Ultimo aggiornamento pubblicato (Effettivo)

2 aprile 2024

Ultimo aggiornamento inviato che soddisfa i criteri QC

29 marzo 2024

Ultimo verificato

1 marzo 2024

Maggiori informazioni

Termini relativi a questo studio

Piano per i dati dei singoli partecipanti (IPD)

Hai intenzione di condividere i dati dei singoli partecipanti (IPD)?

NO

Informazioni su farmaci e dispositivi, documenti di studio

Studia un prodotto farmaceutico regolamentato dalla FDA degli Stati Uniti

No

Studia un dispositivo regolamentato dalla FDA degli Stati Uniti

No

Queste informazioni sono state recuperate direttamente dal sito web clinicaltrials.gov senza alcuna modifica. In caso di richieste di modifica, rimozione o aggiornamento dei dettagli dello studio, contattare register@clinicaltrials.gov. Non appena verrà implementata una modifica su clinicaltrials.gov, questa verrà aggiornata automaticamente anche sul nostro sito web .

Prove cliniche su Metodi di clustering gerarchico

3
Sottoscrivi