面向药物不良反应的多源数据融合研究

来源 :东华大学 | 被引量 : 0次 | 上传用户:st65210163
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科学与医疗大数据的不断发展,越来越多的医疗机构开始尝试使用药物不良反应(Adverse Drug Reactions, ADR)主动发现系统代替原始人工方法对不良反应进行筛选和记录。当前,医疗机构要求医院管理系统(Hospital Information System,HIS)中包含的药物不良反应主动发现系统能够对非结构化电子病历文本中涵盖的药物不良反应进行挖掘。但大多数药物不良反应主动发现系统对电子病历中药物不良反应症状的识别能力低,所使用的不良反应症状库的全面性也无法满足现阶段的需求。因此,如何对发现的不良反应信息进一步挖掘,分析出对应的疾病信息与发作部位信息,成为了我们亟待解决的问题。
  本文主要是针对现有药物不良反应发现系统症状库单一的问题进行改良。通过使用多源数据融合的方法,将多个不同层次的数据源进行融合并构建层级映射关系来改良不良反应发现系统的症状库。使其具有进一步挖掘不良反应对应的疾病信息与发作部位信息的性能。在当前药物不良反应发现系统领域研究成果的基础上,本文研究了中文文本语言模型,文本的分类与聚类算法等,实现了对医学用语词典(MedDRA)、国际疾病分类(International Classification of Diseases, ICD)以及美国食品药品监督管理局(Food and Drug Administration, FDA)药物不良反应报告系统(FDA Adverse Event Reporting System,FAERS)的不良反应症状集的融合。本文围绕以上数据源,将融合工作分为了基于神经网络语言模型( Neural Network Language Model, NNLM)的MedDRA与ICD-10融合、基于层级映射的多源数据融合两部分。在两部分的融合工作中,论文都通过设置对比实验,证明了所提出算法在性能上有所提升。并将提出的算法运用到了具体应用当中。论文的主要工作如下:
  (1)提出了基于NNLM的MedDRA与ICD-10融合的方法。在实现上,采用基于医学特征提取的神经网络语言模型短文本分类方法。在该部分的工作中,使用了 MedDRA的系统器官分类作为标签词。将标签词作为先验知识参与到无监督的神经网络语言模型训练中。并用训练得到的模型对ICD-10进行向量化。最后,根据其医学特征词与分类标签的余弦相似度进行多轴性分类。
  (2)在提出神经网络语言模型短文本分类的过程中,选择了两个经典的神经网络语言模型进行对比:基于周围词语义推测关键词的CBOW模型(Continuous Bag-of-Words Model,CBOW)和基于关键词推测周围词语义的Skip-Gram模型(Continuous Skip-gram Model)。通过该对比实验,证明了用关键词预测周围语境的Skip-Gram模型更适合本课题。
  (3)提出了层级映射的多源数据融合的方法。在实现上,采用后缀树文本聚类。本文在经典的后缀树中文聚类算法的基础上,通过参考医学用语的语义特征,提出了权值递增的加权后缀树中文聚类算法。该算法根据词与词的共现关系确定前后权值。并用对比实验证明了在原有的后缀树模型建立规则上,引入该方法能够有效地提高对医学用语基类的划分准确度。
  (4)将本文研究的文本分类与文本聚类方法用于待融合数据源的融合工作中。并将融合的症状库运用到药物不良反应发现系统当中,对论文的成果进行了应用。通过对应用结果进行分析,证明了该改进对药物不良反应发现系统的关联分析能力有明显提升。
  本文结合了基于NNLM的MedDRA与ICD-10融合方法以及基于层级映射的多源数据融合方法,完成了对药物不良反应发现系统的症状库的改良。通过使用改良的症状库,能够有效地分析得出药物不良反应症状所能够引发的疾病以及可能发作的部位信息,有助于提升药物不良反应发现系统挖掘文本数据的能力。
其他文献
该文用表面态和能带论的观点,系统地分析了气体在敏感膜表面吸附时造成表面功函数的变化以及器件的工作原理,同时全面考虑其它因素如晶界电势及吸附气体在敏感膜内的扩散等对响应过程的影响.实验中选用不同材料的复合配比及不同成膜工艺制作敏感膜.并采用双敏感膜结构,与不同类型IGFET组合,研制成检测ppb范围臭氧浓度的高灵敏度复合悬浮栅场效应晶体管(HSGFET)臭氧传感器.测量并比较了不同悬浮栅基片和不同敏
学位
该论文主要研究了LaAgMnO样品的物理特性,其主要内容介绍如下:二.LaAgMnO粉末样品成相过程的研究.通过对一系列LaAgMnO(x=0.05,0.15,0.25,0.35,0.45)多晶样品成相过程的分析,观察到LaAgMnO多晶的临界成相温度与样品的银含量有着密切的关系:银含量越高的样品成相所需的临界成相温度就越高.并且当银含量达到一定程度时会有革质银析出,我们认为这是因为银离子在溶胶-
学位
该文以Ba(MgTa)O(BMT)系微波介质陶瓷为主要研究对象,研究了Ma/Ta比的微量变化对BMT系陶瓷的结构和介电性能的影响.针对BMT烧结性能差,烧结温度偏高,介电常数的温度特性不好的热点问题,采用两种不同的烧结工艺制备BMT微波陶瓷.为了降低BMT系材料的烧结温度、改善温度特性,分别添加Ba(CoNb)O和NaF进行掺杂改性研究.在采用传统一步煅烧法制备的三组不同Mg/Ta比的BMT试样中
学位
MIMO 技术通过在接收端和发送端配置多根天线,可在不增加带宽和发射功率的前提下,成倍地提高系统的容量,显示出明显的优势,是未来无线通信的关键技术之一。然而,MIMO 系统中多个用户同时与基站交互数据,用户之间相互干扰,影响了通信质量,因此如何消减干扰是MIMO系统面临的关键问题之一。  本文研究了不同场景下已有的干扰消减方法,针对目前其设计方案存在的问题,提出了相应的改进方法。本文的主要工作如下
学位
第五代移动通信即将来临,要求数据速率提高100~1000倍,设备连接数提高10~100倍,对频谱效率和能量效率提出了更高的要求。由于非正交多址技术(Non-Orthogonal Multiple Access, NOMA)可以极大提高频谱效率,因此成为了下一代移动通信候选方案之一。但是数据量的急剧增长,也导致了极大的能量消耗。因此,绿色通信也是未来研究的重要趋势之一。基于以上研究背景,针对功率域N
频谱资源不受限制、设备成本低以及与现有无线电磁波通信互不干扰等特点使可见光通信成为扩充无线通信系统容量、提升通信覆盖率的一种重要候选技术。多输入多输出(Multiple-Input Multiple-Output, MIMO)技术对无线电磁波通信系统通信容量的大幅度提升为室内可见光通信系统传输方案的设计提供了重要的参考和借鉴,室内多光源布局的天然条件更加便利了MIMO技术在室内可见光通信系统中的应
近年来,我国逐步建成了防守型的海洋防御体系,海防雷达正发挥着越来越重要的作用。海防雷达的海表面目标检测(特别是海表面的小目标检测)技术,在军用和民用均有着重要的地位,它广泛地应用于海洋安全、海事救生、监控非法走私等领域。在各种检测方法中,对目标所在背景环境中的噪声及海杂波进行有效的处理十分重要,这直接影响目标检测的性能。而海面情况极其复杂,天气、浪涌等因素给目标检测带来了极大地困难和挑战,在复杂的
学位
序列-序列模型是人工智能领域(特别是自然语言处理领域)普遍使用的模型之一。这个模型能够使用一个统一的框架,直接将输入序列转化为输出序列。许多问题都能够转化为这种形式的问题,进而能够使用序列-序列模型进行求解。无论是机器翻译、句法分析还是语音识别,通过对问题的输入和输出的形式进行合理的变换,我们可以对众多问题得到一个统一的解法。另一方面,句法信息是计算语言学的一个重要的组成部分。许多研究已经证明了句
学位
无人机(Unmanned Aerial Vehicle,UAV)由于其灵活性、易部署、低成本和可扩展性等特点已经被广泛地应用于不同的场景中,但是单架UAV系统受到功能简单、覆盖范围有限的限制使它们不能扩展到更多的应用中。为了克服单架UAV系统的不足,利用不同UAV之间的协作建立ad hoc模式的网络,称为飞行器自组织网络(Flying Ad Hoc Networks,FANETs),来扩展应用范围
学位
随着信息化时代的到来,各行各业每天都会产生大量的文本数据。仅靠人工的方式进行整理,将消耗大量的人力和物力。如果能从海量的文本数据中提取出简短的主题信息,将大大提高用户的处理效率。  主题陈述短句的提取旨在对大量以自然语言形式存在的中文文本进行主题的提取概括,最终形成精简的,以自然语言方式呈现的主题信息。主题陈述短句保留了原句中关键词间的语义关联信息,便于后续的文本统计分析。由于不同领域的中文文本通
学位