生物医学文本中药物信息抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:sailala77882001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着生物医学研究及互联网技术的发展,互联网上可获取的生物医学文献数量急剧增长。海量非结构化的生物医学文献中蕴含着丰富的、有价值的知识。药物作为一种被广泛研究的生物医学实体,是相关知识的重要载体。从非结构化的生物医学文本中抽取出结构化的药物信息既能服务于相关领域的研究人员与医疗专业人员,又能扩充、更新现有的药物知识库。因此,生物医学文本中的药物信息抽取获得越来越多的关注,逐渐成为研究的热点。当前药物信息抽取的研究主要集中在药物名识别及药物之间相互作用关系抽取两个问题上,相关方法的性能尚不能满足实际应用的需要。因此,本文围绕这两个问题展开深入研究。主要研究内容包括以下几个部分:第一,基于多语义特征融合的药物名识别方法。基于药物名词典的语义特征对识别药物名具有很大帮助,被广泛用于基于机器学习的药物名识别方法中。但由于药物名词典覆盖范围有限、更新不及时等原因,基于药物名词典的语义特征存在一定的局限性。本文注意到大规模非结构化的生物医学文献中包含大量未登录的药物名。为弥补基于词典的语义特征的不足,本文提出一种基于多语义特征融合的药物名识别方法。该方法利用大规模非结构化的生物医学文献生成基于词向量的语义特征,并将其与基于药物名词典生成的语义特征联合用于药物名识别。实验结果表明,基于多语义特征融合的药物名识别方法性能优于使用单一语义特征的方法。第二,基于特征组合与特征选择的药物名识别方法。特征组合是指将多个不同类型的简单特征组合为一个组合特征。相比于简单特征,组合特征的优势在于其能表示语句中词的多个属性。在药物名识别问题中,可能的特征组合方式很多,直接将简单特征组合会产生数量庞大的组合特征,且包含大量噪声,影响模型的性能。因此,除了n元文法特征外,现有的药物名识别方法通常仅使用简单特征。为了有效利用组合特征,本文提出了一种面向药物名识别的特征生成框架。该框架包含特征组合与特征选择两个模块,特征组合模块将简单特征组合得到组合特征,特征选择模块去除特征集合中的大量噪声。本文基于该框架将词向量特征、词典特征及通用特征组合,将得到的特征用于条件随机场模型进行药物名识别。实验结果表明,基于特征组合与特征选择的药物名识别方法性能优于仅使用简单特征的药物名识别方法。第三,基于文本序列卷积神经网络的药物相互作用关系抽取方法。现有的性能较好的药物相互作用关系抽取方法是基于支持向量机的方法。这类方法使用大量的人工定义特征且需要各种外部自然语言处理工具来生成这些特征。因此,其性能受外部自然语言处理工具的影响较大。为了减少对外部自然语言处理工具的依赖,本文提出一种基于文本序列卷积神经网络的药物相互作用关系抽取方法。该方法只需要输入由无监督的深度学习算法得到的词向量以及随机初始化的位置向量,通过文本序列卷积与最大池化操作自动学习得到特征,用于softmax分类器进行关系抽取。实验结果表明,该方法性能优于传统的基于支持向量机的方法。第四,基于依存结构卷积神经网络的药物相互作用关系抽取方法。基于文本序列卷积神经网络的药物相互作用关系抽取方法忽略了词之间的长距离依存关系,而这种依存关系对药物相互作用关系抽取很重要。因此,本文提出一种基于依存结构卷积神经网络的药物相互作用关系抽取方法,将词之间的长距离依存关系融入卷积神经网络模型。实验结果表明,引入词之间的长距离依存关系能提升药物相互作用关系抽取的性能。句法分析器对长句的依存句法分析结果错误较多,这些错误传播到依存结构卷积神经网络模型中,会影响模型的性能。为避免错误传播,本文根据语句长度将基于文本序列与基于依存结构的卷积神经网络方法组合。实验结果表明,这种组合能进一步提升药物相互作用关系抽取的性能。
其他文献
胡锦涛总书记在庆祝清华大学建校 100周年大会上的发表的重要讲话,从根本上来讲,是指导新时期我国教育事业科学发展、特别是高等教育改革发展的一篇纲领性文献,对中国高等教育事
报纸
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
PKI是信息安全技术的核心。对PKI技术进行了论述,分析了PKI在信息安全的应用性。
文章利用全国时间序列数据分析房地产投资与宏观和金融因素之间长期协整关系和Granger因果关系,得出房地产开发投资的协整变量有房价、贷款额和利率,人均GDP和股票筹资额是开
物体识别是计算机视觉领域最重要的任务之一,被广泛应用在智能机器人、无人驾驶汽车以及安防等领域。传统的二维物体识别方法由于RGB图像本身的局限性,例如对光照非常敏感,因
企业年金的发展已经有了100多年的历史,已成为社会保障体系的一个重要组成部分。本文从总结OECD国家的监管经验,对审慎性模式和定量限制模式进行比较出发,分析我国企业年金监
高速公路在我国经济建设和促进社会发展中扮演着越来越重要的角色。建设高速公路需要巨额的资金投入,解决资金问题关键在于建立和完善高速公路投融资体制。本文介绍了我国高速
双导师制度建设的不完善和不健全,遮蔽了双导师制应有的成效。在科技协同创新和联合育人的双重压力下,研究生教育创新中心的双导师制发展到了关键的节点,处于止步观望的十字
目的探讨开腹胆道术后经腹腔镜再次行胆道手术的可行性及安全性。方法2002年3月至2010年3月,对26例开腹胆道术后腹腔镜再次胆道手术,采用腹腔镜胆囊切除术(LC)4例;腹腔镜胆总管切
对川西北地区金成矿 ,前人曾过多重视构造—岩相及沉积体系的控矿作用 ,而对构造—岩浆活动的控矿作用关注不够。该文从研究区构造—岩浆活动与金成矿演化 ,构造—岩浆带展布