Tato stránka byla automaticky přeložena a přesnost překladu není zaručena. Podívejte se prosím na anglická verze pro zdrojový text.

Vývoj nástroje pro zpracování přirozeného jazyka, který umožní klinický výzkum v urgentní medicíně (NLP-DeVal)

Vývoj a ověření nástroje pro zpracování přirozeného jazyka, který umožní klinický výzkum v urgentní a akutní medicíně: retrospektivní kohortová studie

Cílem této retrospektivní kohortové studie je vyvinout a ověřit jazykový model, který dokáže interpretovat obsah elektronických lékařských záznamů urgentního příjmu a extrahovat relevantní informace pro výzkumné účely u všech dospělých pacientů, kteří dorazili na zúčastněná oddělení urgentního příjmu během tříletého období. .

Hlavní otázka, kterou se snaží zodpovědět, zní: je jazykový model schopen interpretovat obsah elektronických zdravotních záznamů oddělení urgentního příjmu a extrahovat z nich požadované informace tak, aby je bylo možné použít k přesným analýzám a předpovědím?

Studie je retrospektivní a data budou automaticky extrahována z lékařských zdravotních záznamů.

Přehled studie

Postavení

Zatím nenabíráme

Intervence / Léčba

Detailní popis

VÝCHODISKA A ODŮVODNĚNÍ STUDIE

Provádění klinického výzkumu a výzkumu hodnocení kvality péče v urgentní medicíně je stejně obtížné jako důležité. Je to obtížné, protože obrovský počet pacientů, které je třeba léčit, a chronický nedostatek personálu znemožňují sběr dat ad hoc. Je to důležité, protože výzkum v konečném důsledku umožňuje lékařům a sestrám na pohotovosti založit svou praxi na důkazech získaných v jejich vlastním, jedinečném prostředí, na rozdíl od důkazů získaných v daleko vzdálených souvislostech, jak je tomu dnes běžně.

Jediným způsobem, jak překlenout propast mezi výzkumnými potřebami a dostupností robustních dat, je extrahovat data přímo z elektronických zdravotních záznamů (EHR) pohotovostních oddělení, čímž se vyhnete specializovanému a časově náročnému sběru dat. To je však obtížný úkol, protože nejužitečnější informace jsou ve formátu volného textu (např. přítomnost příznaků a symptomů, suspektní a potvrzená diagnóza, anamnéza). Takové okolnosti a potřeby vyžadují spolehlivý nástroj pro zpracování přirozeného jazyka (NLP), aby bylo možné odvodit vysoce konzistentní data z volného textu.

Dnes jsou k dispozici rozsáhlé jazykové modely, které dokážou přesně interpretovat přirozený jazyk. Tyto modely jsou trénovány na obrovském množství obecných znalostí převzatých převážně z internetu, nicméně jejich výkon ve specializovanějších oblastech, jako je například lékařská oblast, nemusí být optimální.

Tato studie je součástí většího projektu nazvaného eCREAM (umožňující klinický výzkum v urgentní a akutní medicíně) a jejím cílem je vyvinout a ověřit jazykový model (nazvaný eCREAM_LM) ​​pro šest jazyků, který dokáže interpretovat obsah EHR oddělení pohotovosti a extrahovat relevantní informace pro výzkumné účely.

METODY

Studie je observační, multicentrická, retrospektivní, 24měsíční studie. Studie se zúčastní 30 center: 13 z Itálie, 4 z Polska, 3 z Řecka, Slovenska, Slovinska a Spojeného království a 1 ze Švýcarska. Centra nedostanou žádnou kompenzaci, ale jejich výdaje budou hrazeny z prostředků projektu.

Vývoj a validace modelu eCREAM_LM.

eCREAM_LM bude vyvíjen prostřednictvím školení a vyladění nejlepšího celkového modelu mezi těmi open source a bude probíhat v částečně paralelních fázích. Kandidátské modely budou vystaveny obrovskému množství (miliardám) lékařských textů z vědecké literatury nebo jiných veřejných zdrojů. Současně budou modely také vystaveny obrovskému množství (milionů) volných textových poznámek získaných z lékařských záznamů používaných v zúčastněných nemocnicích. Poté přejdeme k dolaďování, kde bude použito velké množství (tisíce) klinických záznamů, získaných opět z lékařské dokumentace zúčastněných center. Tyto poznámky budou opatřeny anotací zkušených lékařů, která spočívá v extrakci informací z poznámek k vyplnění datových položek uvedených ve formuláři pro virtuální sběr dat (vCRF). VCRF byl vytvořen pro související studii a obsahuje soubor proměnných užitečných při predikci hospitalizace pacientů s dušností nebo přechodnou ztrátou vědomí, což je cílem související studie. V této studii bude vCRF sloužit jako nástroj pro validaci jazykového modelu.

Validace eCREAM_LM bude provedena pomocí sady 1 000 klinických poznámek anotovaných, jak je popsáno výše, ale nepoužívaných ve fázi vývoje. Tyto poznámky budou odeslány do modelu eCREAM_LM s úkolem sestavit vCRF. Měřítkem konečné validace eCREAM_LM bude shoda při vyplňování vCRF mezi odbornými lékaři a eCREAM_LM.

Sběr a anonymizace dat

Každá zúčastněná nemocnice poskytne bezplatné textové poznámky obsažené ve zdravotních záznamech 150–300 000 dospělých pacientů léčených v letech 2021 až 2023. Poznámky týkající se různých aspektů téhož pacienta (např. anamnéza, objektivní vyšetření, výsledky testů) budou od sebe odděleny, takže nebude možné rekonstruovat úplný profil pacienta. Kromě toho budou poznámky zbaveny všech odkazů na pacienta (např. jméno, příjmení, datum narození) a kontextu (např. nemocnice, datum a čas příjezdu do centra). Tento proces minimalizuje pravděpodobnost opětovné identifikace pacientů a maximalizuje ochranu jejich práv. Pravděpodobnost opětovné identifikace pacienta v databázi závisí na tom, jak jedinečné jsou jeho charakteristiky od ostatních osob v databázi. Pravděpodobnost jedinečných, a tedy identifikovatelných pacientů se zvyšuje s množstvím informací dostupných v databázi a klesá s její velikostí. Odstraněním všech osobních a kontextových informací z klinických poznámek a oddělením každé poznámky od ostatních bude každá poznámka obsahovat pouze několik charakteristik pacienta. Data shromážděná z nemocnic ve stejné zemi budou navíc sloučena, takže pro každý jazyk bude existovat jedna velká databáze. To účinně vynuluje pravděpodobnost, že existují jednotlivci jednoznačně identifikovatelní z bankovek.

A konečně, aby se vyloučila možnost, že poznámky budou obsahovat informace o třetích stranách, jako jsou jména a telefonní čísla příbuzných pacientů, bude v každé nemocnici nainstalován certifikovaný anonymizační software, speciálně navržený k odstranění osobních údajů z volného textu.

Po anonymizaci budou data centralizována pro analýzu a budou také nahrána na hlavní evropské platformy pro sdílení jazykových zdrojů ve vědecké komunitě.

Statistická analýza

Při validaci eCREAM_LM posoudíme shodu mezi odbornými pohotovostními lékaři a samotným eCREAM_LM při vyplňování vCRF. Údaje se budou vztahovat na vzorek 1 000 poznámek pro každý studijní jazyk. Shoda bude hodnocena pro každou proměnnou vCRF pomocí Cohenova κ jako míry shody. eCREAM_LM bude považován za platný, pokud je Cohenovo κ větší než 0,75.

Velikost vzorku

Za předpokladu vynikající shody (κ=0,80) mezi eCREAM_LM a zkušenými pohotovostními lékaři při vyplňování vCRF bude k dosažení dostatečné přesnosti pro zaručení dobré shody nezbytný vzorek alespoň 735 poznámek (spodní mez spolehlivosti 95% interval spolehlivosti Cohenovo K větší než 0,75). Toto číslo je maximální velikost vzorku získaná v různých scénářích zahrnujících různý počet kategorií (2 až 5) pro každou proměnnou a různé okrajové rozdělení kategorií ve vzorku, včetně vyváženého rozdělení (např. 5 kategorií s 20 % vzorku v každé kategorii) a velmi nevyvážené výsledky (např. 5 kategorií s 1,8 %, 7,3 %, 16,4 %, 29,1 % a 45,5 % vzorku). Vzhledem k tomu, že v některých poznámkách mohou chybět zajímavé informace, provedeme vyhodnocení ověření dat na 1 000 poznámkách.

Typ studie

Pozorovací

Zápis (Odhadovaný)

300000

Kontakty a umístění

Tato část poskytuje kontaktní údaje pro ty, kteří studii provádějí, a informace o tom, kde se tato studie provádí.

Studijní kontakt

Studijní záloha kontaktů

Studijní místa

      • Milan, Itálie, 20156
        • Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Kritéria účasti

Výzkumníci hledají lidi, kteří odpovídají určitému popisu, kterému se říká kritéria způsobilosti. Některé příklady těchto kritérií jsou celkový zdravotní stav osoby nebo předchozí léčba.

Kritéria způsobilosti

Věk způsobilý ke studiu

  • Dospělý
  • Starší dospělý

Přijímá zdravé dobrovolníky

Ano

Metoda odběru vzorků

Ukázka pravděpodobnosti

Studijní populace

Všichni dospělí pacienti, kteří dorazili na zúčastněná pohotovostní oddělení mezi 1. lednem 2021 a 31. prosincem 2023

Popis

Kritéria pro zařazení:

  • Dospělý
  • Dorazil na pohotovost mezi 1. lednem 2021 a 31. prosincem 2023

Kritéria vyloučení:

  • Žádný

Studijní plán

Tato část poskytuje podrobnosti o studijním plánu, včetně toho, jak je studie navržena a co studie měří.

Jak je studie koncipována?

Detaily designu

Kohorty a intervence

Skupina / kohorta
Intervence / Léčba
Dospělí, kteří navštívili pohotovost
žádný zásah

Co je měření studie?

Primární výstupní opatření

Měření výsledku
Popis opatření
Časové okno
Shoda ve vyplnění formuláře virtuální kazuistiky
Časové okno: 1 měsíc
Míra shody při vyplňování formuláře virtuální kazuistiky mezi odbornými lékaři a jazykovým modelem eCREAM_LM
1 měsíc

Spolupracovníci a vyšetřovatelé

Zde najdete lidi a organizace zapojené do této studie.

Vyšetřovatelé

  • Vrchní vyšetřovatel: Guido Bertolini, Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Termíny studijních záznamů

Tato data sledují průběh záznamů studie a předkládání souhrnných výsledků na ClinicalTrials.gov. Záznamy ze studií a hlášené výsledky jsou před zveřejněním na veřejné webové stránce přezkoumány Národní lékařskou knihovnou (NLM), aby se ujistily, že splňují specifické standardy kontroly kvality.

Hlavní termíny studia

Začátek studia (Odhadovaný)

1. června 2024

Primární dokončení (Odhadovaný)

1. března 2025

Dokončení studie (Odhadovaný)

1. května 2025

Termíny zápisu do studia

První předloženo

26. ledna 2024

První předloženo, které splnilo kritéria kontroly kvality

26. ledna 2024

První zveřejněno (Aktuální)

5. února 2024

Aktualizace studijních záznamů

Poslední zveřejněná aktualizace (Aktuální)

4. dubna 2024

Odeslaná poslední aktualizace, která splnila kritéria kontroly kvality

3. dubna 2024

Naposledy ověřeno

1. ledna 2024

Více informací

Termíny související s touto studií

Další relevantní podmínky MeSH

Další identifikační čísla studie

  • 8780

Plán pro data jednotlivých účastníků (IPD)

Plánujete sdílet data jednotlivých účastníků (IPD)?

ANO

Popis plánu IPD

Anonymizovaná data jednotlivých účastníků budou nahrána na hlavní evropské platformy pro sdílení jazykových zdrojů ve vědecké komunitě, včetně úložiště European Language Grid (https://live.europeanlanguage-grid.eu), virtuální jazykové observatoře CLARIN (https: //vlo.clarin.eu/?2) a iniciativa European Language Equality (ELE) (https://european-language-equality.eu).

Časový rámec sdílení IPD

Počínaje prosincem 2025

Typ podpůrných informací pro sdílení IPD

  • PROTOKOL STUDY
  • CSR

Informace o lécích a zařízeních, studijní dokumenty

Studuje lékový produkt regulovaný americkým FDA

Ne

Studuje produkt zařízení regulovaný americkým úřadem FDA

Ne

Tyto informace byly beze změn načteny přímo z webu clinicaltrials.gov. Máte-li jakékoli požadavky na změnu, odstranění nebo aktualizaci podrobností studie, kontaktujte prosím register@clinicaltrials.gov. Jakmile bude změna implementována na clinicaltrials.gov, bude automaticky aktualizována i na našem webu .

Klinické studie na žádný zásah

3
Předplatit