论文部分内容阅读
在当今信息技术以不可阻挡之势迅猛发展的时代,公开发表的生物医学文献也正在呈现爆炸式的增长态势。系统生物学的研究与发展又使得揭示生物分子间各层面关系的需求愈加迫切,促动着面向生物医学领域的信息抽取技术沿着从生物命名实体识别到关系抽取,再到更为复杂的事件抽取的轨迹,由浅入深地不断发展。本文以生物医学文献为数据源,围绕蛋白质交互作用关系(Protein-Protein Interaction, PPI)抽取和生物医学事件抽取的主题任务展开关键技术的研究,旨在从海量生物医学文献中有效提取和组织结构化信息,发现潜在的知识供生物医学领域研究与应用。文中深入分析了PPI抽取和生物医学事件抽取的主要任务及研究现状。在PPI抽取任务中,针对特征重要性差异问题,首先充分发掘文本中上下文和句子结构与语义信息进行特征选择和特征提取,运用支持向量机(SVM)分类器建立了基于丰富特征的PPI抽取系统,取得了良好的PPI抽取结果。而后选取特征核、路径加权子序列核和全路径依存图核等异构核函数为对象,着重研究每种核函数的数据结构和构建方式,提出加权多核融合算法,使异构核之间优势互补,能够从不同侧面获取重要的PPI句法和语义信息,有效降低丢失重要特征的风险。在生物医学事件抽取任务中,针对触发词的歧义问题,以事件触发词为核心,运用依存句法分析和深层句法分析器,选择和提取不同层次的句法和语义特征,构建丰富全面且具个性化的特征集,采用LIBSVM多元分类器,提出分治策略建立触发词分类模型,再将分类结果统一融合,既避免特征缺失,又有效发挥不同类型特征的作用,力求在事件触发词识别阶段获得良好的系统性能。针对生物医学事件的特征稀疏问题,在事件论元检测阶段提出标注语料和未标注数据相结合的半监督学习方法,采用特征耦合泛化等策略生成具有强辨识度的事件论元识别新特征,从而扩展了特征集,建立有效的事件论元检测模型,取得精细粒度的生物医学事件抽取结果。在AIMed等多个PPI语料集上的实验结果表明加权多核融合的PPI抽取系统具有良好的抽取能力和泛化能力,达到目前基于机器学习的PPI抽取的先进水平。在通用的BioNLP语料集上的实验结果表明采用生物事件触发词驱动的识别技术有效提高了触发词识别性能:建立的半监督学习的生物事件抽取模型与原始模型相结合达到了取长补短的效果,其性能在目前的9类生物事件抽取共享任务中位于先进行列,并在调控(Regulation)等复杂事件抽取中显现出优势。