论文部分内容阅读
随着分子生物领域文献呈现爆炸式增长,科研人员要从海量的非结构化或半结构化电子文献中获取需要的特定知识,传统的阅读方式已经不能满足人们的需求。最近几年,研究者们利用文本挖掘技术在生物医学领域进行命名实体识别,关系抽取任务。然而仅仅这些不足以帮助科研工作者们理解持续增长的复杂生物医学文本。因此,生物医学的文本挖掘技术从命名实体识别和关系抽取逐渐转变到细粒度的复杂事件抽取。生物医学事件抽取旨在抽取生物过程中的语义和角色信息,这种事件通常具有复杂的结构,并且具有多种类别。而采取结构化的知识获取生物医学事件的表示是至关重要的,通过有效且准确的方法抽取生物医学事件也是必然的。生物医学事件抽取有助于基因本体库、蛋白质关系库和通路数据库等的挖掘整理工作和研究效率。现存的生物医学事件语料库存在两个问题。第一,小样本问题。当语料库的样本过少时容易产生过拟合,并且容易造成分类结果精确率较高,但召回率较低;如果进行人工标注样本则需要花费巨大的代价。第二,样本数据分布不平衡的问题。在关系抽取任务中,都是基于一个基本假设——数据分布是均匀的。但应用到实际数据后,往往都无法取得理想的效果,因为大多数实际数据不会拥有完全相等的分类数据集。特别是当正例样本与负例样本之间存在数量级差别,会造成分类器向多数类样本倾斜,分类模型的效果明显下降。因此,本文采用对模型的事件抽取方式,从句子表示和样本有效选择出发,深入探讨和研究预测修正、半监督学习和主动学习方法以解决生物医学文献中的多类别事件分类的小样本和样本的不平衡问题,有效地提高了生物医学事件抽取的性能。本文的主要工作内容如下:(1)针对生物医学事件抽取中的小样本问题,在半监督框架下,提出了一种基于支持向量机分类模型和卷积神经网络模型协同学习的生物医学事件抽取方法。首先,通过人工设计的丰富特征集的支持向量机分类模型对无标记的生物医学语料进行事件抽取。其次,通过对事件样本集中各个样本的依存路径进行信息扩展,生成两种新的表示,分别为依存词序列和依存类型序列。并采用基于两种序列向量作为输入的卷积神经网络模型对无标记语料进行事件抽取。将协同学习得到的伪标记样本结果进行融合,根据冲突概率评估规则,对两种结果进行甄选,增强训练集。在测试阶段,采用SVM分类模型进行预测。通过大量的实验对该方法的性能和效果进行了评价,实验表明,所提出的方法能够很好地缓解生物医学事件语料库中存在的小样本问题,提高分类模型的性能。(2)针对生物医学事件抽取中数据集样本分布不平衡问题,提出了一种基于序列模式的样本过滤和联合评分机制的决策评估方法,用于改善分类性能,提高生物医学事件的识别率。首先,采用序列模式算法抑制负例样本,从而限制正负例样本比例,确保样本对分类器结果的影响趋于平衡,加快收敛速度;其次,考虑多参事件中触发词和参数之间的联合信息,利用支持向量机模型对多参事件的三元组进行抽取,并对二元关系和三元关系的预测结果进行融合。最后,采用结合触发词重要度和基于卷积深度结构性语义模型的句子相似度的联合评分机制,对预测结果进行决策修正。在常用的Bio NLP共享任务中的GENIA 2011和GENIA 2013数据集上进行了实验,结果表明,本文所提出的方法,通过均衡正负样本的分布,弱化分类边界偏向多数类的情况,并对分类结果进行修正,在能保证较高的事件抽取召回率的同时提高了精确率。(3)针对生物医学事件中存在的小样本和类别分布差异,将半监督学习与主动学习结合,提出一种基于聚类查询合成置信度评估的生物医学事件抽取方法,对低置信度和高置信度样本分别进行专家标注和自适应扩充。首先,利用支持向量机模型对无标记的生物医学语料进行事件抽取,构建待分析数据集。其次,在待分析数据集上进行聚类,划分各个类簇中的代表类别样本和非代表类别样本,分别查询代表类别样本中的离群点和非代表类别样本中的近中心点,合成两种类型的样本点为异常点,并将异常点作为低置信度样本交由专家标注,而其他的样本则为高置信度样本。根据生物医学事件中各个事件类别的分布,自适应扩充各个事件类别的高置信度样本,调整多类别事件之间样本分布差异性和小样本问题。实验结果表明,与其他事件抽取方法相比,本文所提出的方法能够实现更好的生物医学事件抽取性能,提升分类模型的泛化能力。综上所述,本文针对生物医学事件语料中存在的小样本不平衡问题,从扩充数据集并调整各事件类别样本分布的角度出发,深入的探讨和研究半监督学习、预测修正和主动学习方法。提升了生物医学事件抽取分类器的泛化能力,以及事件抽取的准确性和鲁棒性。