论文部分内容阅读
生物实体之间的关系是当前生物学家尤为关注的知识之一。然而,大量的实体关系蕴藏在海量的生物文本中,并且随着生物文本的快速增长而持续累积。如何从生物文本中自动地抽取实体关系已经成为生物信息学领域的一个重要挑战。本文以面向生物文本的实体关系自动抽取为主要研究对象,围绕实体关系自动抽取过程中面临的特征构造、数据集不平衡、标注数据集规模较小、跨领域标注数据集复用等关键问题展开研究。论文工作包括:(1)针对特征构造问题,提出了一种紧凑的特征向量。该特征向量具有两大优点:一是融合了多种特征,包括词、词性、句法以及词模板等在内的多类特征,信息丰富并能对复杂的生物文本进行有效表达;二是具有紧凑的特征表示方式,较好的缓解了因融合丰富特征导致的特征稀疏问题。(2)针对数据集不平衡问题,提出了基于自适应的欠采样方法和基于动态联合学习的随机欠采样方法。基于自适应的欠采样方法在欠采样过程中能对分类器进行自适应的调整,而基于动态联合学习的随机欠采样方法融合了过采样和欠采样的思想,实现了在扩大的样本空间上进行欠采样。它们均有效降低了利用欠采样思想解决数据集不平衡问题所致的删除有益样本的风险。(3)针对标注数据集规模较小的问题,提出了统一的主动学习框架。它是一种更适用于实体关系抽取任务的主动学习框架。除样本选择模块外,它进一步融入了多样性样本选择模块、主动特征获取模块以及相关特征选择模块。实验结果表明,该框架有效降低了抽取方法对标注数据集规模的依赖程度。(4)针对跨领域标注数据集复用问题,建立了基于迁移学习的复用框架,具体包括基于样本迁移学习的复用方法、基于特征组迁移学习的复用方法以及基于主动学习和迁移学习融合的复用方法。其中,基于样本迁移学习的复用方法和基于特征组迁移学习的复用方法分别从样本和特征两个粒度进行迁移学习,实现了跨领域标注数据集的复用;而基于主动学习和迁移学习融合的复用方法则融合了主动学习和迁移学习的优点,为解决更实际的问题奠定了基础。