生物医学领域的信息抽取与复合物识别研究

被引量 : 3次 | 上传用户:lxhcoolrr
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生物医学文献是学术成果展示和学术交流最主要的方式。目前,海量的生物医学文献已经成为一座巨大的知识宝库,是最重要的生物医学领域资源。生物医学信息抽取是指针对生物医学领域需求,将自然语言处理以及计算语言学的方法和技术,应用于生物医学文献,高效、准确地抽取特定的生物医学知识。生物医学信息抽取及其相关研究能够对生物医学研究者的研究工作提供多方面的帮助,对于生命科学各领域的研究具有广泛的应用价值。生物医学实体关系抽取和生物医学事件抽取是目前生物医学信息抽取研究重要的研究内容。本文在前人的研究基础上,针对生物医学实体关系抽取和生物医学事件触发词识别进行了相关研究。蛋白质复合物的结构和功能是探索各种生命活动机理的基础,重要的蛋白质复合物功能机理的阐明能够为其所在研究领域带来巨大突破。蛋白质复合物识别是蛋白质复合物研究的第一步,也是蛋白质组学及其相关研究的重要基础。本文针对蛋白质复合物识别问题,从挖掘并整合生物医学多元领域知识入手,将生物医学信息抽取技术应用于复合物识别研究中,提高蛋白质复合物识别的准确性。本文主要研究工作包括以下三方面:针对生物医学实体关系抽取问题,将基于图的哈希操作理论引入到图核理论框架中,提出了哈希子图对(Hash Subgraph pairwise, HSP)图核方法。HSP图核方法能够使用哈希操作,高效地将句法依存图中复杂的句法特征转化为层级哈希标签,图核函数基于层级哈希标签能够将句法依存图上的句法信息映射到高维的子图对特征空间。HSP图核不仅能够更充分地挖掘并利用句法依存图中的复杂句法特征,并且能够利用哈希操作并行的特性,有效地控制了方法的时间复杂度。针对生物医学事件触发词识别问题,提出了基于丰富特征的触发词识别方法,该方法使用哈希操作将句法依存图中的句法信息转换为哈希特征,并将哈希特征与基本词法特征整合为丰富特征。哈希特征是基于句法依存图,使用哈希操作构造出来的句法特征,能够全面、充分地挖掘句法依存图中的句法结构信息;而基本词法特征涵盖了句子重要的词法信息。哈希句法特征与基本词法特征具有很强的互补性,而且对于事件触发词识别任务都具有重要的辨识作用,因此基于丰富特征的触发词识别方法能够有效提高生物医学事件触发词识别的性能。针对蛋白质复合物识别任务,首先使用生物医学实体关系抽取方法,高效地从海量生物医学文献中抽取相关的蛋白质相互作用关系(Protein Protein Interaction, PPI)数据。在此基础上,基于属性图理论,构建蛋白质属性网络,整合高通量PPI数据、生物医学文献PPI数据和基因本体数据,建立高性能的复合物识别模型。实验表明整合基因本体和生物医学文献知识源,不仅能够降低了高通量PPI数据中存在的“噪音”数据对于复合物识别算法性能的影响,并且使蛋白质复合物识别研究能够将复合物的结构特征和功能特性有机地结合,提高了复合物识别的准确性。
其他文献
地方政府性债务是我国经济目前所面临的巨大风险,它影响着财政资金安全。经过地方政府性债务审计风暴,地方政府性债务审计工作越来越被重视。但是,我国地方政府性债务审计实施中
目的:观察研究肾虚血瘀型多囊卵巢综合征患者体内纤溶酶原激活物抑制物-1(PAI-1)表达的影响及补肾活血方的作用机制。方法:选取欲行体外受精-胚胎移植(IVF-ET)多囊卵巢综合征(PCOS)患
本文结合《中华人民共和国预算法》最后一次修订和现今行政事业单位预算发展的形势,分析了新法律对单位预算所提出的新要求。针对目前单位预算所存在的问题并结合实际现象,提
随着当代科技的发展,Web应用程序的应用越来越多,相应地在程序开发方面,Web程序的开发技术也日益增多,然而多数Web应用程序都存在着系统结构复杂、扩展性以及可维护性较差、测试
目的观察电针华佗夹脊穴对佐剂性关节炎大鼠脊髓背角内磷酸化ERK表达的影响,从信号转导的角度研究电针镇痛可能的作用机制.方法以完全福氏佐剂(CFA)致炎性痛大鼠模型,采用免
本文主要研究信用利差的动态过程,并基于金融工程模型与宏观经济因子作出中美两国信用利差的实证分析。首先构建马尔科夫状态转换跳跃扩散模型,并基于2008年至2013年的数据资
在全球迎来信息时代的今日,飞速发展的通信事业已进入4G高速时代。然而,GSM网络仍拥有全球44亿用户,为人类提供世上最稳定可靠地语音服务,保障4G时代语音业务。GSM移动信息系统是
浙江长征职业技术学院为适应职业教育发展需要,自主开发了基于物联网的智能家居体验中心系统(以下亦称智能家居系统)并部署在专门组建的体验中心实训室内部,以便物联网专业通
随着网络技术的发展,互联网上站点越来越多,简单的网络爬虫已经不能实现对某些大型站点的大数据存储。解决该问题的最关键是引入分布式存储技术。Hadoop是具有分布式存储HDFS
在当今信息技术以不可阻挡之势迅猛发展的时代,公开发表的生物医学文献也正在呈现爆炸式的增长态势。系统生物学的研究与发展又使得揭示生物分子间各层面关系的需求愈加迫切,