Esta página se tradujo automáticamente y no se garantiza la precisión de la traducción. por favor refiérase a versión inglesa para un texto fuente.

Desarrollo de una herramienta de procesamiento del lenguaje natural para permitir la investigación clínica en medicina de emergencia (NLP-DeVal)

3 de abril de 2024 actualizado por: Mario Negri Institute for Pharmacological Research

Desarrollo y validación de una herramienta de procesamiento del lenguaje natural para permitir la investigación clínica en medicina de emergencias y cuidados intensivos: estudio de cohorte retrospectivo

El objetivo de este estudio de cohorte retrospectivo es desarrollar y validar un modelo de lenguaje que pueda interpretar el contenido de los registros médicos electrónicos del departamento de emergencias y extraer información relevante para fines de investigación en todos los pacientes adultos que llegaron a los departamentos de emergencia participantes en un período de tres años. .

La principal pregunta que pretende responder es: ¿el modelo de lenguaje es capaz de interpretar el contenido de los registros médicos electrónicos de los servicios de urgencias y extraer de ellos la información solicitada para poder utilizarlo para realizar análisis y predicciones precisos?

El estudio es retrospectivo y los datos se extraerán automáticamente de los registros médicos.

Descripción general del estudio

Estado

Aún no reclutando

Intervención / Tratamiento

Descripción detallada

ANTECEDENTES Y JUSTIFICACIÓN DEL ESTUDIO

Realizar investigaciones clínicas y de evaluación de la calidad de la atención en medicina de emergencia es tan difícil como importante. Es difícil porque la gran cantidad de pacientes que necesitan ser tratados y la escasez crónica de personal hacen que la recopilación de datos ad hoc sea poco práctica. Es importante porque, en última instancia, la investigación permite a los médicos y enfermeras de urgencias basar su práctica en la evidencia obtenida en su propio entorno único, en contraposición a la evidencia obtenida en contextos lejanos, como suele ser el caso hoy en día.

La única manera de cerrar la brecha entre las necesidades de investigación y la disponibilidad de datos sólidos es extraer datos directamente de los registros médicos electrónicos (EHR) de los departamentos de emergencia, evitando la recopilación de datos dedicada y que requiere mucho tiempo. Sin embargo, esta es una tarea difícil porque la información más útil está en formato de texto libre (p. ej., presencia de signos y síntomas, diagnóstico sospechado y confirmado, anamnesis). Tales circunstancias y necesidades requieren una herramienta confiable de procesamiento del lenguaje natural (PLN) para obtener datos altamente consistentes a partir de texto libre.

Hoy en día, se encuentran disponibles modelos de lenguaje a gran escala que pueden interpretar con precisión el lenguaje natural. Sin embargo, estos modelos se basan en enormes cantidades de conocimientos generales extraídos principalmente de Internet, por lo que su rendimiento en áreas más especializadas, como el ámbito médico, puede no ser óptimo.

El presente estudio es parte de un proyecto más amplio llamado eCREAM (que permite la investigación clínica en medicina de emergencia y cuidados intensivos) y tiene como objetivo desarrollar y validar un modelo de lenguaje (llamado eCREAM_LM) ​​para seis idiomas que pueden interpretar los contenidos de los EHR del departamento de emergencias y extraer información relevante para fines de investigación.

MÉTODOS

El estudio es observacional, multicéntrico, retrospectivo y de 24 meses de duración. En el estudio participarán treinta centros: 13 de Italia, 4 de Polonia, 3 de Grecia, Eslovaquia, Eslovenia y Reino Unido, y 1 de Suiza. Los centros no recibirán ninguna compensación, pero sus gastos serán cubiertos con fondos del proyecto.

Desarrollo y validación del modelo eCREAM_LM.

eCREAM_LM se desarrollará mediante la capacitación y el ajuste del mejor modelo general, entre los de código abierto, y se desarrollará en fases parcialmente paralelas. Los modelos candidatos estarán expuestos a una enorme cantidad (miles de millones) de textos médicos de la literatura científica u otras fuentes públicas. Al mismo tiempo, los modelos también estarán expuestos a una cantidad masiva (millones) de notas de texto libre obtenidas de registros médicos utilizados en los hospitales participantes. Pasaremos luego a la puesta a punto, donde se utilizará una gran cantidad (miles) de notas clínicas, obtenidas, una vez más, de las historias clínicas de los centros participantes. Estas notas serán anotadas por médicos experimentados, lo que consiste en extraer información de las notas para completar los elementos de datos enumerados en un formulario de recopilación de datos virtual (vCRF). El vCRF fue creado para un estudio relacionado y contiene un conjunto de variables útiles para predecir la hospitalización de pacientes con disnea o pérdida transitoria del conocimiento, que es el objetivo del estudio relacionado. En el estudio actual, el vCRF servirá como herramienta para validar el modelo de lenguaje.

La validación de eCREAM_LM se llevará a cabo utilizando un conjunto de 1.000 notas clínicas anotadas como se describe anteriormente, pero que no se utilizarán en la fase de desarrollo. Estas notas se enviarán al modelo eCREAM_LM con la tarea de compilar el vCRF. La concordancia en la cumplimentación del vCRF entre los médicos expertos y el eCREAM_LM será la medida de validación final de eCREAM_LM.

Recopilación de datos y anonimización.

Cada hospital participante proporcionará notas de texto gratuito contenidas en los registros médicos de entre 150.000 y 300.000 pacientes adultos tratados entre 2021 y 2023. Las notas que se refieran a diferentes aspectos del mismo paciente (p. ej., antecedentes, examen objetivo, resultados de pruebas) se separarán entre sí de modo que será imposible reconstruir el perfil completo del paciente. Además, las notas estarán despojadas de cualquier referencia al paciente (p. ej., nombre, apellido, fecha de nacimiento) y contexto (p. ej., hospital, fecha y hora de llegada al centro). Este proceso minimiza la probabilidad de reidentificar a los pacientes y maximiza la protección de sus derechos. La probabilidad de reidentificar a un paciente dentro de una base de datos depende de cuán únicas sean sus características con respecto a otras personas en la base de datos. La probabilidad de tener pacientes únicos y, por tanto, identificables aumenta con la cantidad de información disponible en la base de datos y disminuye con su tamaño. Al eliminar toda la información personal y contextual de las notas clínicas y separar cada nota de las demás, cada nota solo informará algunas características del paciente. Además, los datos recopilados de hospitales del mismo país se fusionarán para que haya una gran base de datos para cada idioma. Esto efectivamente elimina a cero la probabilidad de que haya individuos identificables de manera única en las notas.

Finalmente, para descartar la posibilidad de que las notas contengan información sobre terceros, como nombres y números de teléfono de familiares de los pacientes, se instalará en cada hospital un software de anonimización certificado, diseñado específicamente para eliminar datos personales del texto libre.

Una vez anonimizados, los datos se centralizarán para su análisis y también se cargarán en las principales plataformas europeas de intercambio de recursos lingüísticos en la comunidad científica.

análisis estadístico

En la validación de eCREAM_LM evaluaremos la concordancia entre los médicos de urgencias expertos y el propio eCREAM_LM en la cumplimentación del vCRF. Los datos se referirán a una muestra de 1.000 notas para cada idioma de estudio. Se evaluará la concordancia para cada variable del vCRF utilizando κ de Cohen como medida de concordancia. El eCREAM_LM se considerará válido si la κ de Cohen es superior a 0,75.

Tamaño de la muestra

Suponiendo una concordancia excelente (κ=0,80) entre eCREAM_LM y los médicos de urgencias experimentados al completar el vCRF, será necesaria una muestra de al menos 735 notas para lograr la precisión suficiente para garantizar una buena concordancia (límite de confianza inferior del intervalo de confianza del 95%). κ de Cohen mayor que 0,75). Este número es el tamaño de muestra máximo obtenido en diferentes escenarios que involucran un número diferente de categorías (2 a 5) para cada variable y diferentes distribuciones marginales de las categorías en la muestra, incluidas distribuciones equilibradas (por ejemplo, 5 categorías con el 20% de la muestra). en cada categoría) y resultados muy desequilibrados (p. ej., 5 categorías con el 1,8%, 7,3%, 16,4%, 29,1% y 45,5% de la muestra). Dado que es posible que falte información de interés en algunas notas, realizaremos la evaluación de validación de datos en 1000 notas.

Tipo de estudio

De observación

Inscripción (Estimado)

300000

Contactos y Ubicaciones

Esta sección proporciona los datos de contacto de quienes realizan el estudio e información sobre dónde se lleva a cabo este estudio.

Estudio Contacto

Copia de seguridad de contactos de estudio

Ubicaciones de estudio

      • Milan, Italia, 20156
        • Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Criterios de participación

Los investigadores buscan personas que se ajusten a una determinada descripción, denominada criterio de elegibilidad. Algunos ejemplos de estos criterios son el estado de salud general de una persona o tratamientos previos.

Criterio de elegibilidad

Edades elegibles para estudiar

  • Adulto
  • Adulto Mayor

Acepta Voluntarios Saludables

Método de muestreo

Muestra de probabilidad

Población de estudio

Todos los pacientes adultos que llegaron a los departamentos de emergencia participantes entre el 1 de enero de 2021 y el 31 de diciembre de 2023.

Descripción

Criterios de inclusión:

  • Adulto
  • Llegó al servicio de urgencias entre el 1 de enero de 2021 y el 31 de diciembre de 2023.

Criterio de exclusión:

  • Ninguno

Plan de estudios

Esta sección proporciona detalles del plan de estudio, incluido cómo está diseñado el estudio y qué mide el estudio.

¿Cómo está diseñado el estudio?

Detalles de diseño

Cohortes e Intervenciones

Grupo / Cohorte
Intervención / Tratamiento
Adultos que acudieron al servicio de urgencias.
Sin intervención

¿Qué mide el estudio?

Medidas de resultado primarias

Medida de resultado
Medida Descripción
Periodo de tiempo
Concordancia en el llenado del formulario virtual de reporte de caso
Periodo de tiempo: 1 mes
Nivel de concordancia en la cumplimentación del formulario virtual de reporte de caso entre los médicos expertos y el modelo de lenguaje eCREAM_LM
1 mes

Colaboradores e Investigadores

Aquí es donde encontrará personas y organizaciones involucradas en este estudio.

Investigadores

  • Investigador principal: Guido Bertolini, Istituto di Ricerche Farmacologiche Mario Negri IRCCS

Fechas de registro del estudio

Estas fechas rastrean el progreso del registro del estudio y los envíos de resultados resumidos a ClinicalTrials.gov. Los registros del estudio y los resultados informados son revisados ​​por la Biblioteca Nacional de Medicina (NLM) para asegurarse de que cumplan con los estándares de control de calidad específicos antes de publicarlos en el sitio web público.

Fechas importantes del estudio

Inicio del estudio (Estimado)

1 de junio de 2024

Finalización primaria (Estimado)

1 de marzo de 2025

Finalización del estudio (Estimado)

1 de mayo de 2025

Fechas de registro del estudio

Enviado por primera vez

26 de enero de 2024

Primero enviado que cumplió con los criterios de control de calidad

26 de enero de 2024

Publicado por primera vez (Actual)

5 de febrero de 2024

Actualizaciones de registros de estudio

Última actualización publicada (Actual)

4 de abril de 2024

Última actualización enviada que cumplió con los criterios de control de calidad

3 de abril de 2024

Última verificación

1 de enero de 2024

Más información

Términos relacionados con este estudio

Términos MeSH relevantes adicionales

Otros números de identificación del estudio

  • 8780

Plan de datos de participantes individuales (IPD)

¿Planea compartir datos de participantes individuales (IPD)?

Descripción del plan IPD

Los datos anonimizados de los participantes individuales se cargarán en las principales plataformas europeas de intercambio de recursos lingüísticos de la comunidad científica, incluido el repositorio European Language Grid (https://live.europeanlanguage-grid.eu), el Observatorio Virtual de Lenguas CLARIN (https: //vlo.clarin.eu/?2) y la iniciativa Europea para la Igualdad de las Lenguas (ELE) (https://european-language-equality.eu).

Marco de tiempo para compartir IPD

A partir de diciembre de 2025

Tipo de información de apoyo para compartir IPD

  • PROTOCOLO DE ESTUDIO
  • RSC

Información sobre medicamentos y dispositivos, documentos del estudio

Estudia un producto farmacéutico regulado por la FDA de EE. UU.

No

Estudia un producto de dispositivo regulado por la FDA de EE. UU.

No

Esta información se obtuvo directamente del sitio web clinicaltrials.gov sin cambios. Si tiene alguna solicitud para cambiar, eliminar o actualizar los detalles de su estudio, comuníquese con register@clinicaltrials.gov. Tan pronto como se implemente un cambio en clinicaltrials.gov, también se actualizará automáticamente en nuestro sitio web. .

Ensayos clínicos sobre Sin intervención

3
Suscribir