面向生物医学领域的信息抽取关键技术研究

被引量 : 9次 | 上传用户:wangchun2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当今信息技术以不可阻挡之势迅猛发展的时代,公开发表的生物医学文献也正在呈现爆炸式的增长态势。系统生物学的研究与发展又使得揭示生物分子间各层面关系的需求愈加迫切,促动着面向生物医学领域的信息抽取技术沿着从生物命名实体识别到关系抽取,再到更为复杂的事件抽取的轨迹,由浅入深地不断发展。本文以生物医学文献为数据源,围绕蛋白质交互作用关系(Protein-Protein Interaction, PPI)抽取和生物医学事件抽取的主题任务展开关键技术的研究,旨在从海量生物医学文献中有效提取和组织结构化信息,发现潜在的知识供生物医学领域研究与应用。文中深入分析了PPI抽取和生物医学事件抽取的主要任务及研究现状。在PPI抽取任务中,针对特征重要性差异问题,首先充分发掘文本中上下文和句子结构与语义信息进行特征选择和特征提取,运用支持向量机(SVM)分类器建立了基于丰富特征的PPI抽取系统,取得了良好的PPI抽取结果。而后选取特征核、路径加权子序列核和全路径依存图核等异构核函数为对象,着重研究每种核函数的数据结构和构建方式,提出加权多核融合算法,使异构核之间优势互补,能够从不同侧面获取重要的PPI句法和语义信息,有效降低丢失重要特征的风险。在生物医学事件抽取任务中,针对触发词的歧义问题,以事件触发词为核心,运用依存句法分析和深层句法分析器,选择和提取不同层次的句法和语义特征,构建丰富全面且具个性化的特征集,采用LIBSVM多元分类器,提出分治策略建立触发词分类模型,再将分类结果统一融合,既避免特征缺失,又有效发挥不同类型特征的作用,力求在事件触发词识别阶段获得良好的系统性能。针对生物医学事件的特征稀疏问题,在事件论元检测阶段提出标注语料和未标注数据相结合的半监督学习方法,采用特征耦合泛化等策略生成具有强辨识度的事件论元识别新特征,从而扩展了特征集,建立有效的事件论元检测模型,取得精细粒度的生物医学事件抽取结果。在AIMed等多个PPI语料集上的实验结果表明加权多核融合的PPI抽取系统具有良好的抽取能力和泛化能力,达到目前基于机器学习的PPI抽取的先进水平。在通用的BioNLP语料集上的实验结果表明采用生物事件触发词驱动的识别技术有效提高了触发词识别性能:建立的半监督学习的生物事件抽取模型与原始模型相结合达到了取长补短的效果,其性能在目前的9类生物事件抽取共享任务中位于先进行列,并在调控(Regulation)等复杂事件抽取中显现出优势。
其他文献
棉花是喜光作物,棉花单叶光补偿点是750-1000lux,光饱和点是7-8万1ux,适应在充足的光照条件下生长。棉花生长发育过程中,花铃期是棉花产量、品质形成的关键时期,也是对外界环
地方政府性债务是我国经济目前所面临的巨大风险,它影响着财政资金安全。经过地方政府性债务审计风暴,地方政府性债务审计工作越来越被重视。但是,我国地方政府性债务审计实施中
目的:观察研究肾虚血瘀型多囊卵巢综合征患者体内纤溶酶原激活物抑制物-1(PAI-1)表达的影响及补肾活血方的作用机制。方法:选取欲行体外受精-胚胎移植(IVF-ET)多囊卵巢综合征(PCOS)患
本文结合《中华人民共和国预算法》最后一次修订和现今行政事业单位预算发展的形势,分析了新法律对单位预算所提出的新要求。针对目前单位预算所存在的问题并结合实际现象,提
随着当代科技的发展,Web应用程序的应用越来越多,相应地在程序开发方面,Web程序的开发技术也日益增多,然而多数Web应用程序都存在着系统结构复杂、扩展性以及可维护性较差、测试
目的观察电针华佗夹脊穴对佐剂性关节炎大鼠脊髓背角内磷酸化ERK表达的影响,从信号转导的角度研究电针镇痛可能的作用机制.方法以完全福氏佐剂(CFA)致炎性痛大鼠模型,采用免
本文主要研究信用利差的动态过程,并基于金融工程模型与宏观经济因子作出中美两国信用利差的实证分析。首先构建马尔科夫状态转换跳跃扩散模型,并基于2008年至2013年的数据资
在全球迎来信息时代的今日,飞速发展的通信事业已进入4G高速时代。然而,GSM网络仍拥有全球44亿用户,为人类提供世上最稳定可靠地语音服务,保障4G时代语音业务。GSM移动信息系统是
浙江长征职业技术学院为适应职业教育发展需要,自主开发了基于物联网的智能家居体验中心系统(以下亦称智能家居系统)并部署在专门组建的体验中心实训室内部,以便物联网专业通
随着网络技术的发展,互联网上站点越来越多,简单的网络爬虫已经不能实现对某些大型站点的大数据存储。解决该问题的最关键是引入分布式存储技术。Hadoop是具有分布式存储HDFS