论文部分内容阅读
生物医学文献是学术成果展示和学术交流最主要的方式。目前,海量的生物医学文献已经成为一座巨大的知识宝库,是最重要的生物医学领域资源。生物医学信息抽取是指针对生物医学领域需求,将自然语言处理以及计算语言学的方法和技术,应用于生物医学文献,高效、准确地抽取特定的生物医学知识。生物医学信息抽取及其相关研究能够对生物医学研究者的研究工作提供多方面的帮助,对于生命科学各领域的研究具有广泛的应用价值。生物医学实体关系抽取和生物医学事件抽取是目前生物医学信息抽取研究重要的研究内容。本文在前人的研究基础上,针对生物医学实体关系抽取和生物医学事件触发词识别进行了相关研究。蛋白质复合物的结构和功能是探索各种生命活动机理的基础,重要的蛋白质复合物功能机理的阐明能够为其所在研究领域带来巨大突破。蛋白质复合物识别是蛋白质复合物研究的第一步,也是蛋白质组学及其相关研究的重要基础。本文针对蛋白质复合物识别问题,从挖掘并整合生物医学多元领域知识入手,将生物医学信息抽取技术应用于复合物识别研究中,提高蛋白质复合物识别的准确性。本文主要研究工作包括以下三方面:针对生物医学实体关系抽取问题,将基于图的哈希操作理论引入到图核理论框架中,提出了哈希子图对(Hash Subgraph pairwise, HSP)图核方法。HSP图核方法能够使用哈希操作,高效地将句法依存图中复杂的句法特征转化为层级哈希标签,图核函数基于层级哈希标签能够将句法依存图上的句法信息映射到高维的子图对特征空间。HSP图核不仅能够更充分地挖掘并利用句法依存图中的复杂句法特征,并且能够利用哈希操作并行的特性,有效地控制了方法的时间复杂度。针对生物医学事件触发词识别问题,提出了基于丰富特征的触发词识别方法,该方法使用哈希操作将句法依存图中的句法信息转换为哈希特征,并将哈希特征与基本词法特征整合为丰富特征。哈希特征是基于句法依存图,使用哈希操作构造出来的句法特征,能够全面、充分地挖掘句法依存图中的句法结构信息;而基本词法特征涵盖了句子重要的词法信息。哈希句法特征与基本词法特征具有很强的互补性,而且对于事件触发词识别任务都具有重要的辨识作用,因此基于丰富特征的触发词识别方法能够有效提高生物医学事件触发词识别的性能。针对蛋白质复合物识别任务,首先使用生物医学实体关系抽取方法,高效地从海量生物医学文献中抽取相关的蛋白质相互作用关系(Protein Protein Interaction, PPI)数据。在此基础上,基于属性图理论,构建蛋白质属性网络,整合高通量PPI数据、生物医学文献PPI数据和基因本体数据,建立高性能的复合物识别模型。实验表明整合基因本体和生物医学文献知识源,不仅能够降低了高通量PPI数据中存在的“噪音”数据对于复合物识别算法性能的影响,并且使蛋白质复合物识别研究能够将复合物的结构特征和功能特性有机地结合,提高了复合物识别的准确性。