论文部分内容阅读
实体关系抽取是信息抽取领域内的重要研究课题。同时,实体关系的识别对于篇章理解、信息检索、问答系统和机器翻译等方面的研究都有非常重要的意义。随着信息呈海量趋势,关系抽取已经成为一个热门的研究方向。自从关系抽取的概念被提出以来,在实体关系抽取方面的工作绝大多数都集中在有监督的机器学习方法。这些方法虽然有较好的准确性,但是需要标注大规模的语料,而这通常需要耗费大量的人力、物力。近年,弱监督与无监督方法相继被提出来。这些方法虽然能够解决有监督方法需要标注大量训练语料的缺陷,但是仍然存在特征获取不准和精度低等问题。本文提出了一个从大规模语料中提取实体关系的无监督的方法。该方法基于具有相同关系的命名实体对具有相似的上下文这一假设。在此假设之下,抽取关系的过程就可以转化为计算实体对上下文相似度的过程。本文的工作主要体现在三个方面:首先,引入了一个在文本处理领域把文本特征转换为数字特征的经典的向量空间模型,该模型表示方法是在关系的上下文中提取其特征项,并以某种方式对特征项赋予一定的权重构造特征向量,再依据各个特征对聚类的贡献对每个特征进行选择的方法;其次,为了提取向量化的实体对数据内存在的关系提出了一个改进的聚类算法,该算法不但能够显著地提高原有算法的准确率,而且运行的效率没有明显的下降;最后,提出了一个基于分类特征识别的方法来对实体对关系进行标记。为了验证提出的命名实体关系抽取方法的可行性与有效性,在ACE语料上的EMP-ORG、GPE-AFF、PHYS这几大类关系上进行了实验,从结果上可以看出本文提出的方法在这几个数据集上的效果都有一定的提高。同时,也与Hasgawa算法的结果进行了对比,本文的算法在效率与结果的准确性上都有一定的优势。实验表明,本文提出的基于聚类的无监督关系抽取方法对于本文所用的语料是有效的。