此页面是自动翻译的,不保证翻译的准确性。请参阅 英文版 对于源文本。

人工智能数据采集研究和急性肺栓塞患者表型分析 (PEPITE)

最初的目标是构建和验证人工智能工具(机器学习和自然语言处理),以从土伦 - 拉塞纳河畔中心医院医院 (CHITS) 的医疗报告中获取和构建数据。 该项目将建立在尼斯安托万拉卡萨涅中心 (CAL) 流行病学、生物统计和健康数据部 (DEBDS) 先前所做工作的基础上,重点关注乳腺癌和甲状腺癌。 我们的想法是验证这些工具是否可以转移到具有不同病理学和从业人员的另一个机构,特别是 CHITS 的血管医学部门。

随后,目标将是确定急性肺栓塞患者的临床相关表型。 分层聚类方法与无监督学习(机器学习)相结合将用于获得诊断时同质的患者组。 在 6 个月时评估其预后(复发或慢性血栓栓塞性肺动脉高压),考虑抗凝治疗的前 3 个月,将为医疗决策提供帮助。

本研究将包括回顾性和前瞻性部分。 回顾性部分将包括自 2019 年以来因急性肺栓塞入住 CHITS 的患者。 对于前瞻性部分,计划纳入 2024 年和 2025 年具有相同特征的患者。 预计将包括超过 2,500 名患者。

这项研究不会对当前的患者护理产生影响。 作为护理的一部分进行的咨询和各种检查的数据将在诊断后六个月内收集,以实现研究目标。

研究概览

地位

招聘中

条件

详细说明

语境 :

人工智能:NLP、聚类和无监督学习:

人工智能(AI)是一个将计算机科学与数据集相结合的领域,旨在使机器能够模仿人类的认知能力。 机器学习 (ML) 及其子领域深度学习(使用神经元层)是人工智能的两个主要子领域。 区别在于每种算法的训练。 机器学习使用两种独特的方法:监督学习,涉及在已知的输入和输出数据上训练模型以预测未来的输出;无监督学习涉及发现输入数据中的隐藏模式和内在的底层结构。 自然语言处理(NLP)也是人工智能的一个子领域,但它通常需要机器学习才能有效。 NLP 处理现实世界的语言数据,以计算机可以理解的方式理解它。

NLP有两个主要阶段:数据预处理和算法开发。 Python 或 R 等编程语言广泛用于这些技术。

聚类方法的目的是将一组个体分为同质类。 非层次方法可用于对海量数据进行分类,但需要预先确定类的数量。 分层方法计算起来比较耗时,由一系列由聚类树表示的嵌套分区组成。 类的最佳数量可以通过读取树来确定。 在存在大量个体的情况下,通常将非等级技术和等级技术相结合。 当事先不清楚类别时,可以将聚类方法与无监督学习 (ML) 结合使用 [1]。 数据集通常分为三个不相交的数据集: 训练数据,用于训练所选算法;验证数据,用于检查结果的性能;和测试数据,仅在流程结束时使用。

静脉血栓栓塞性疾病:

静脉血栓栓塞性疾病(VTE)是一种常见的病理学,其发病率尚不完全清楚,但随着年龄的增长而增加,在 75 岁以上的受试者中达到 1%。 在法国,估计每年有超过 100,000 人患上 VTE,导致 5,000 至 10,000 人死亡。 深静脉血栓(DVT)和肺栓塞(PE)是VTE的两种主要类型。 DVT 相当于深静脉被血栓部分或完全闭塞,最常见于下肢。 PE被定义为肺动脉或其分支部分或完全闭塞。 DVT 的主要风险是发生 PE,可能危及生命。 其他 VTE 特异性并发症和可能的不良后果包括血栓栓塞复发(DVT 或 PE)、慢性血栓栓塞性肺动脉高压和 DVT 血栓后综合征。 目前VTE的治疗主要基于抗凝治疗。 治疗持续时间根据取消治疗后估计的复发风险而变化,主要取决于先前是否存在主要危险因素[2]。 在PE患者的这一亚组中,在没有主要危险因素的情况下,复发风险被认为是中等风险,并且根据事件是首次发作还是复发以及是否存在阻塞性肺部后遗症而有所不同[3]。 最近,治疗策略变得更加复杂,在没有相关证据的情况下纳入了调节治疗持续时间的次要危险因素。 此外,无论治疗持续时间长短,直接口服抗凝剂在第六个月之后的抗凝剂量都是不确定的。

假设:

这项研究分为两个不同的轴:

AXIS 1:这项工作的最初目标是使用 ML 和 NLP 开发和验证人工智能工具,用于从土伦 - 拉塞纳中心医院血管医学科的基于文本的医疗报告中获取和构建数据苏尔梅尔(CHITS)。 该项目将建立在安托万·拉卡萨涅中心 (CAL) 流行病学、生物统计和健康数据部 (DEBDS) 之前所做的工作基础上,重点关注乳腺癌和甲状腺癌 [5,6,7]。 我们的想法是验证这些工具是否可以转移到具有不同病理学和从业人员的另一个机构,特别是 CHITS 的血管医学部门。

在我们医院内实施使用人工智能技术直接从文本医疗报告获取结构化数据的方法是一个挑战。 如果它的性能得到证实并且该工具被永久例行地实施,它将提供一个易于利用的信息源。 我们机构的临床研究领域和兴趣的多样性可能使部署到其他部门成为一个可实现的目标。 对于 CHITS 来说,这是构建健康数据仓库 (HDW) 过程的第一步。

AXIS 2:随后,目标将是使用该数据库来识别急性肺栓塞患者的临床相关表型。 分层聚类方法与无监督学习(机器学习)相结合将用于获得诊断时同质的患者组。 在 6 个月时评估其预后(复发或慢性血栓栓塞性肺动脉高压),考虑抗凝治疗的前 3 个月,将为医疗决策提供帮助。

以前从未对同质急性肺栓塞患者组的六个月演变进行过分析,该分析是使用无监督学习的聚类方法构建的。 这个大型医院基础设施内的创新项目可能会为医生提供决策帮助,并为患者提供经过科学验证的治疗管理形式。

材料与方法 :

本研究将包括回顾性和前瞻性部分。 回顾性部分将包括自2019年以来因急性肺栓塞入院CHITS的患者(约1900名患者)。 对于前瞻性部分,计划纳入 2024 年和 2025 年具有相同特征的患者(约 765 名患者)。 如果个人信息不可用或者他们反对处理 25% 患者的数据,则该试验可能会分析超过 2,500 名患者的大量数据。 这项研究不会对当前的患者护理产生影响。 作为护理的一部分进行的咨询和各种检查的数据将在诊断后六个月内收集,以实现研究目标。

轴 1:本研究中使用的数据采集方法是双重的。 临床研究中患者的数据将按照惯例使用病例报告表收集,然后集中并组织在称为“黄金标准”的参考数据库中,并由临床研究技术人员输入。 第二种数据采集技术使用 NLP 方法,将与以前的方法并行地分几个阶段进行。 首先,提取文本格式的医疗报告 (MR),然后是假名化阶段。 然后,通过删除特殊字符和识别兴趣片段,准备好 MR 数据集进行训练和验证。 然后,MR 将用 BRAT 进行注释,以识别将用于填充数据库的术语。 训练脚本将应用于 70% 的患者,以创建 NLP 模型。 在此训练阶段,将编写后处理医疗规则,以便将模型识别的信息转换为结构化数据。 最终确定的脚本将应用于验证库并对其性能进行评估。 经过任何必要的调整后,最终脚本的性能将在测试数据库上进行评估。 将通过将自动获得的数据与手动黄金标准数据库进行比较来评估性能。

AXIS 2:本研究中使用的无监督聚类方法结合了分层和非分层方法。 在分层升序聚类之后,使用沃德指数来确定感兴趣组的数量。 然后考虑这些组的质心来初始化分区算法,例如 k 均值算法。 一旦确定了大多数医学相关群体,就会比较六个月的演变(稳定、恶化或进展)。 治疗前三个月影响进展的因素也可以包含在统计模型中,具体取决于它们预测恶化的能力。 所有这些探索都应该为医学决策提供依据。

研究类型

观察性的

注册 (估计的)

2500

联系人和位置

本节提供了进行研究的人员的详细联系信息,以及有关进行该研究的地点的信息。

学习联系方式

研究联系人备份

学习地点

      • Toulon、法国、83100
        • 招聘中
        • centre hospitalier intercommunal Toulon La Seyne sur Mer - Internal and vascular medicine
        • 接触:

参与标准

研究人员寻找符合特定描述的人,称为资格标准。这些标准的一些例子是一个人的一般健康状况或先前的治疗。

资格标准

适合学习的年龄

  • 成人
  • 年长者

接受健康志愿者

取样方法

非概率样本

研究人群

本研究将包括回顾性和前瞻性部分。 回顾性部分将包括自2019年以来因急性肺栓塞入院CHITS的患者(约1900名患者)。 对于前瞻性部分,计划纳入 2024 年和 2025 年具有相同特征的患者。

描述

纳入标准:

  • 年龄≥18岁;
  • CHITS 中患有急性肺栓塞的患者(住院或未住院)。

排除标准:

  • 亚节段性肺栓塞;
  • 耐心的反对。

学习计划

本节提供研究计划的详细信息,包括研究的设计方式和研究的衡量标准。

研究是如何设计的?

设计细节

队列和干预

团体/队列
干预/治疗
急性肺栓塞患者
滨海拉塞讷土伦社区中心医院的急性肺栓塞患者,自 2019 年起是否住院
将使用分层聚类方法根据诊断时的数据形成同质患者组:是否存在症状、临床和生物学数据以及是否存在有利因素。 6个月时的患者病情进展可分为:稳定、恶化或进展,这取决于复发、出血、功能性后遗症或死亡等事件。

研究衡量的是什么?

主要结果指标

结果测量
措施说明
大体时间
AXIS 1 - 主要:开发一个强大的工具,用于直接从基于文本的医疗报告获取结构化数据
大体时间:30个月
该工具将使用 NLP 方法来实现,主要是用 PYTHON 开发的。 所实施工具的性能将通过将该工具生成的数据与手动输入的数据(“黄金标准”数据库)进行比较来评估。
30个月
AXIS 2 - 主要:根据诊断时的医疗特征识别同质患者组,然后比较他们在 6 个月时的进展情况。
大体时间:6个月
将使用分层聚类方法根据诊断时的数据形成同质患者组:是否存在症状、临床和生物学数据以及是否存在有利因素。 6个月时的患者病情进展可分为:稳定、恶化或进展,这取决于复发、出血、功能性后遗症或死亡等事件。
6个月

次要结果测量

结果测量
措施说明
大体时间
AXIS 2 - 次要:确定治疗前三个月内预测 6 个月进展的因素。
大体时间:3个月
将保留为主要目标定义的先验组。 治疗前三个月考虑的因素包括:临床和生物学数据、是否存在症状、有利因素或并发症。
3个月

合作者和调查者

在这里您可以找到参与这项研究的人员和组织。

调查人员

  • 研究主任:Jean-Noël POGGI, MD、Centre Hospitalier Intercommunal Toulon La Seyne sur Mer

出版物和有用的链接

负责输入研究信息的人员自愿提供这些出版物。这些可能与研究有关。

研究记录日期

这些日期跟踪向 ClinicalTrials.gov 提交研究记录和摘要结果的进度。研究记录和报告的结果由国家医学图书馆 (NLM) 审查,以确保它们在发布到公共网站之前符合特定的质量控制标准。

研究主要日期

学习开始 (实际的)

2023年12月11日

初级完成 (估计的)

2026年7月1日

研究完成 (估计的)

2026年7月1日

研究注册日期

首次提交

2023年12月13日

首先提交符合 QC 标准的

2023年12月26日

首次发布 (实际的)

2023年12月28日

研究记录更新

最后更新发布 (实际的)

2024年4月2日

上次提交的符合 QC 标准的更新

2024年3月29日

最后验证

2024年3月1日

更多信息

与本研究相关的术语

计划个人参与者数据 (IPD)

计划共享个人参与者数据 (IPD)?

药物和器械信息、研究文件

研究美国 FDA 监管的药品

研究美国 FDA 监管的设备产品

此信息直接从 clinicaltrials.gov 网站检索,没有任何更改。如果您有任何更改、删除或更新研究详细信息的请求,请联系 register@clinicaltrials.gov. clinicaltrials.gov 上实施更改,我们的网站上也会自动更新.

层次聚类方法的临床试验

3
订阅