论文部分内容阅读
随着生物医学研究及互联网技术的发展,互联网上可获取的生物医学文献数量急剧增长。海量非结构化的生物医学文献中蕴含着丰富的、有价值的知识。药物作为一种被广泛研究的生物医学实体,是相关知识的重要载体。从非结构化的生物医学文本中抽取出结构化的药物信息既能服务于相关领域的研究人员与医疗专业人员,又能扩充、更新现有的药物知识库。因此,生物医学文本中的药物信息抽取获得越来越多的关注,逐渐成为研究的热点。当前药物信息抽取的研究主要集中在药物名识别及药物之间相互作用关系抽取两个问题上,相关方法的性能尚不能满足实际应用的需要。因此,本文围绕这两个问题展开深入研究。主要研究内容包括以下几个部分:第一,基于多语义特征融合的药物名识别方法。基于药物名词典的语义特征对识别药物名具有很大帮助,被广泛用于基于机器学习的药物名识别方法中。但由于药物名词典覆盖范围有限、更新不及时等原因,基于药物名词典的语义特征存在一定的局限性。本文注意到大规模非结构化的生物医学文献中包含大量未登录的药物名。为弥补基于词典的语义特征的不足,本文提出一种基于多语义特征融合的药物名识别方法。该方法利用大规模非结构化的生物医学文献生成基于词向量的语义特征,并将其与基于药物名词典生成的语义特征联合用于药物名识别。实验结果表明,基于多语义特征融合的药物名识别方法性能优于使用单一语义特征的方法。第二,基于特征组合与特征选择的药物名识别方法。特征组合是指将多个不同类型的简单特征组合为一个组合特征。相比于简单特征,组合特征的优势在于其能表示语句中词的多个属性。在药物名识别问题中,可能的特征组合方式很多,直接将简单特征组合会产生数量庞大的组合特征,且包含大量噪声,影响模型的性能。因此,除了n元文法特征外,现有的药物名识别方法通常仅使用简单特征。为了有效利用组合特征,本文提出了一种面向药物名识别的特征生成框架。该框架包含特征组合与特征选择两个模块,特征组合模块将简单特征组合得到组合特征,特征选择模块去除特征集合中的大量噪声。本文基于该框架将词向量特征、词典特征及通用特征组合,将得到的特征用于条件随机场模型进行药物名识别。实验结果表明,基于特征组合与特征选择的药物名识别方法性能优于仅使用简单特征的药物名识别方法。第三,基于文本序列卷积神经网络的药物相互作用关系抽取方法。现有的性能较好的药物相互作用关系抽取方法是基于支持向量机的方法。这类方法使用大量的人工定义特征且需要各种外部自然语言处理工具来生成这些特征。因此,其性能受外部自然语言处理工具的影响较大。为了减少对外部自然语言处理工具的依赖,本文提出一种基于文本序列卷积神经网络的药物相互作用关系抽取方法。该方法只需要输入由无监督的深度学习算法得到的词向量以及随机初始化的位置向量,通过文本序列卷积与最大池化操作自动学习得到特征,用于softmax分类器进行关系抽取。实验结果表明,该方法性能优于传统的基于支持向量机的方法。第四,基于依存结构卷积神经网络的药物相互作用关系抽取方法。基于文本序列卷积神经网络的药物相互作用关系抽取方法忽略了词之间的长距离依存关系,而这种依存关系对药物相互作用关系抽取很重要。因此,本文提出一种基于依存结构卷积神经网络的药物相互作用关系抽取方法,将词之间的长距离依存关系融入卷积神经网络模型。实验结果表明,引入词之间的长距离依存关系能提升药物相互作用关系抽取的性能。句法分析器对长句的依存句法分析结果错误较多,这些错误传播到依存结构卷积神经网络模型中,会影响模型的性能。为避免错误传播,本文根据语句长度将基于文本序列与基于依存结构的卷积神经网络方法组合。实验结果表明,这种组合能进一步提升药物相互作用关系抽取的性能。