论文部分内容阅读
信息抽取是自然语言处理的一个热门方向,研究人员不仅仅满足于对命名实体的识别,更致力于对海量的实体之间所存在的关联进行挖掘,其研究成果可应用于知识库构建、信息检索、问答系统等多个领域。半监督学习通过少部分种子标记样本和大量无标记样本迭代训练得到分类模型,是机器学习中一个常用而有效的方法。本文以半监督学习中的协同训练方法为基础,以提高关系分类效果为目标,提出了一种文本实体关系抽取方法。首先,借助工具对语料从词法分析和句法分析两个角度进行处理,提取关键特征并构造特征向量,生成语料特征相关的稀疏矩阵,这为后续的分类模型训练奠定了良好的基础。然后,在关系抽取任务中加入样本优化模块。由于半监督分类方法对样本具有较高敏感性,因此本文提出了融合样本去噪和多数类欠采样的样本优化方法。在对样本进行标记并预分类之后,采用本文提出的考虑环境因素的样本去噪方法删除远离所有样本的离群点和处于某类样本中类型不同的孤立点,保留安全样本与边界样本,配合多数类欠采样方法,实现了样本去噪和平衡化。该方法有效提升了实体关系抽取的效果。最后,设计并构建了采用增强的Tri-training协同训练方法的实体关系分类模型,提出了一种基于样本信息熵和代表性的度量方法,对具有较高度量值的无标记样本进行筛选,并应用到协同训练过程中。通过少量的种子标记样本训练三个初始分类器,按照编号顺次将分类器设为目标分类器,并在每一轮迭代中使用其余两个分类器对筛选得到的无标记样本进行标记,将结果输入目标分类器中进行训练。迭代达到终止条件后,使用投票法得到最终的实体关系分类模型。采用经优化的样本进行实验,结果证明增强的Tri-training方法优于传统的协同训练方法。