论文部分内容阅读
随着计算机科学与医疗大数据的不断发展,越来越多的医疗机构开始尝试使用药物不良反应(Adverse Drug Reactions, ADR)主动发现系统代替原始人工方法对不良反应进行筛选和记录。当前,医疗机构要求医院管理系统(Hospital Information System,HIS)中包含的药物不良反应主动发现系统能够对非结构化电子病历文本中涵盖的药物不良反应进行挖掘。但大多数药物不良反应主动发现系统对电子病历中药物不良反应症状的识别能力低,所使用的不良反应症状库的全面性也无法满足现阶段的需求。因此,如何对发现的不良反应信息进一步挖掘,分析出对应的疾病信息与发作部位信息,成为了我们亟待解决的问题。
本文主要是针对现有药物不良反应发现系统症状库单一的问题进行改良。通过使用多源数据融合的方法,将多个不同层次的数据源进行融合并构建层级映射关系来改良不良反应发现系统的症状库。使其具有进一步挖掘不良反应对应的疾病信息与发作部位信息的性能。在当前药物不良反应发现系统领域研究成果的基础上,本文研究了中文文本语言模型,文本的分类与聚类算法等,实现了对医学用语词典(MedDRA)、国际疾病分类(International Classification of Diseases, ICD)以及美国食品药品监督管理局(Food and Drug Administration, FDA)药物不良反应报告系统(FDA Adverse Event Reporting System,FAERS)的不良反应症状集的融合。本文围绕以上数据源,将融合工作分为了基于神经网络语言模型( Neural Network Language Model, NNLM)的MedDRA与ICD-10融合、基于层级映射的多源数据融合两部分。在两部分的融合工作中,论文都通过设置对比实验,证明了所提出算法在性能上有所提升。并将提出的算法运用到了具体应用当中。论文的主要工作如下:
(1)提出了基于NNLM的MedDRA与ICD-10融合的方法。在实现上,采用基于医学特征提取的神经网络语言模型短文本分类方法。在该部分的工作中,使用了 MedDRA的系统器官分类作为标签词。将标签词作为先验知识参与到无监督的神经网络语言模型训练中。并用训练得到的模型对ICD-10进行向量化。最后,根据其医学特征词与分类标签的余弦相似度进行多轴性分类。
(2)在提出神经网络语言模型短文本分类的过程中,选择了两个经典的神经网络语言模型进行对比:基于周围词语义推测关键词的CBOW模型(Continuous Bag-of-Words Model,CBOW)和基于关键词推测周围词语义的Skip-Gram模型(Continuous Skip-gram Model)。通过该对比实验,证明了用关键词预测周围语境的Skip-Gram模型更适合本课题。
(3)提出了层级映射的多源数据融合的方法。在实现上,采用后缀树文本聚类。本文在经典的后缀树中文聚类算法的基础上,通过参考医学用语的语义特征,提出了权值递增的加权后缀树中文聚类算法。该算法根据词与词的共现关系确定前后权值。并用对比实验证明了在原有的后缀树模型建立规则上,引入该方法能够有效地提高对医学用语基类的划分准确度。
(4)将本文研究的文本分类与文本聚类方法用于待融合数据源的融合工作中。并将融合的症状库运用到药物不良反应发现系统当中,对论文的成果进行了应用。通过对应用结果进行分析,证明了该改进对药物不良反应发现系统的关联分析能力有明显提升。
本文结合了基于NNLM的MedDRA与ICD-10融合方法以及基于层级映射的多源数据融合方法,完成了对药物不良反应发现系统的症状库的改良。通过使用改良的症状库,能够有效地分析得出药物不良反应症状所能够引发的疾病以及可能发作的部位信息,有助于提升药物不良反应发现系统挖掘文本数据的能力。
本文主要是针对现有药物不良反应发现系统症状库单一的问题进行改良。通过使用多源数据融合的方法,将多个不同层次的数据源进行融合并构建层级映射关系来改良不良反应发现系统的症状库。使其具有进一步挖掘不良反应对应的疾病信息与发作部位信息的性能。在当前药物不良反应发现系统领域研究成果的基础上,本文研究了中文文本语言模型,文本的分类与聚类算法等,实现了对医学用语词典(MedDRA)、国际疾病分类(International Classification of Diseases, ICD)以及美国食品药品监督管理局(Food and Drug Administration, FDA)药物不良反应报告系统(FDA Adverse Event Reporting System,FAERS)的不良反应症状集的融合。本文围绕以上数据源,将融合工作分为了基于神经网络语言模型( Neural Network Language Model, NNLM)的MedDRA与ICD-10融合、基于层级映射的多源数据融合两部分。在两部分的融合工作中,论文都通过设置对比实验,证明了所提出算法在性能上有所提升。并将提出的算法运用到了具体应用当中。论文的主要工作如下:
(1)提出了基于NNLM的MedDRA与ICD-10融合的方法。在实现上,采用基于医学特征提取的神经网络语言模型短文本分类方法。在该部分的工作中,使用了 MedDRA的系统器官分类作为标签词。将标签词作为先验知识参与到无监督的神经网络语言模型训练中。并用训练得到的模型对ICD-10进行向量化。最后,根据其医学特征词与分类标签的余弦相似度进行多轴性分类。
(2)在提出神经网络语言模型短文本分类的过程中,选择了两个经典的神经网络语言模型进行对比:基于周围词语义推测关键词的CBOW模型(Continuous Bag-of-Words Model,CBOW)和基于关键词推测周围词语义的Skip-Gram模型(Continuous Skip-gram Model)。通过该对比实验,证明了用关键词预测周围语境的Skip-Gram模型更适合本课题。
(3)提出了层级映射的多源数据融合的方法。在实现上,采用后缀树文本聚类。本文在经典的后缀树中文聚类算法的基础上,通过参考医学用语的语义特征,提出了权值递增的加权后缀树中文聚类算法。该算法根据词与词的共现关系确定前后权值。并用对比实验证明了在原有的后缀树模型建立规则上,引入该方法能够有效地提高对医学用语基类的划分准确度。
(4)将本文研究的文本分类与文本聚类方法用于待融合数据源的融合工作中。并将融合的症状库运用到药物不良反应发现系统当中,对论文的成果进行了应用。通过对应用结果进行分析,证明了该改进对药物不良反应发现系统的关联分析能力有明显提升。
本文结合了基于NNLM的MedDRA与ICD-10融合方法以及基于层级映射的多源数据融合方法,完成了对药物不良反应发现系统的症状库的改良。通过使用改良的症状库,能够有效地分析得出药物不良反应症状所能够引发的疾病以及可能发作的部位信息,有助于提升药物不良反应发现系统挖掘文本数据的能力。