Knowledge-Driven Adverse Event Extraction

Project 3: Cross-language and Multi-sources of Knowledge Driven Adverse Event Extraction Method for Pharmacovigilance

研究背景

药物安全问题与国民健康息息相关,发生的“反应停事件”让人们进一步认识到及时发现和申报不良反应的重要性。然而,我国医药企业在直报不良反应和信息整理方面存在一定挑战,如直报意愿低和人工整理信息的成本高。面对这些问题,可以结合自然语言处理与文本数据挖掘技术,借助新一代人工智能技术,提升药物警戒领域文档智能化处理过程,抽取用药不良事件关联,促进上市许可持有人的主动报告能力,保障用药安全,维护国民健康,这对我国的医疗行业发展至关重要。

研究内容

1. 面向药物警戒领域的篇章级辅助翻译系统

与句子级翻译任务相比,面向药物警戒领域的篇章级翻译任务更加复杂和具有挑战性。为构建面向药物警戒领域的篇章级中英翻译系统,需解决语义、语境处理、结构和逻辑分析、可读性和专业性平衡等问题和难点。篇章级翻译要求传达整篇文档或段落中的意思,而非单独的句子。该翻译任务需要进行文档的整体语义分析,同时保证专业术语的准确性和一致性。在翻译篇章时,还需要分析文档的结构和逻辑,使翻译结果符合原意。此外,需要兼顾文档专业性与可读性,以确保翻译结果的有效性和可用性。为提升篇章级别翻译的准确性,我们与太美医疗合作,构建了专业的药物警戒术语库,并采用段落级别翻译与术语一致性检查,提高了翻译员的工作效率和翻译准确性。

与太美医疗合作开发的eTranslation药物警戒文档辅助翻译系统.

2. 面向药物说明书的多模态融合实体及属性识别

面向药物说明书的多模态融合实体及属性识别是一个具有挑战性的任务。药物说明书中存在着大量的信息,包括文字、图片、表格等多模态信息,而实现对这些信息的精准提取所需克服的问题。药物说明书中包含大量实体及其属性信息,如药物名称、适应症等,而这些实体及信息一般以自然语言的形式呈现,需要将其转化为可处理及存储的结构化表示形式。药物说明书中不仅有文字描述,还有图片、表格等多种类型的信息,需要将多种不同类型的信息整合到一起进行多模态信息融合分析和提取。 药物说明书中的信息分散在不同的段落、句子和图片表格中,需要解决跨模态、跨语言的多粒度信息抽取问题。药物说明书属于医学领域的专业文献,其中有大量的专业术语需要翻译和处理,需要高水平的医学知识。是一项非常具有挑战性的任务,需要技术开发人员具备丰富的自然语言处理和图像处理技术知识,并加强对医学领域专业术语的理解和处理,以达到实现结构化信息提取和自动化分析的目的。本工作构建并公开了药品说明书+标注的完整数据集,弥补了药品说明书中文数据集的缺失问题。在项目训练过程中得到了用于检测图像中文本是否为斜粗体等的目标检测模型,鉴于目前关于该方向的研究较少,该模型也将和标注好的训练数据集一起公开。

药物说明书关键术语提取及数据集构建

3. 面向药物说明书的多模态融合篇章级风险事件抽取

篇章级多模态信息抽取是一项具有挑战性的任务,目前已有的深度神经网络模型往往只考虑文本内容,需要更多的约束和外部知识来提高模型的准确性。为此,可以将药物、患者、疾病和不良反应等实体之间的关联利用贝叶斯概率图进行建模,通过统计方法来剪枝,并析出关联路径,从而缩小目标事件要素的识别范围,提高事件要素提取的精度。此外,已有的知识图谱等专家知识也可以提供额外的知识支持,进行有效修正,在现有模型的预测结果中实现有效的校正,来提高要素填充缺失数据时的精度。此外,如何判断药物与不良反应之间的因果关系是另一个重要的问题。基于稀疏变分编码器的隐变量建模方法可以实现对缺失数据的模拟,通过对稀疏特征的控制实现假设检验。同时,基于图表示学习的方法能够实现对关键风险路径的推导和因果概率图的构建,已经有一些相关的研究成果。因此,基于隐变量模型的风险药物-不良反应因果推断方法被提出来,可以用来检测不良事件中的因果关系是否正确,从而提高模型的准确性。

篇章级别多模态融合篇章级风险事件抽取框架