无监督关系抽取方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mafenqiang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
实体关系抽取是信息抽取领域内的重要研究课题。同时,实体关系的识别对于篇章理解、信息检索、问答系统和机器翻译等方面的研究都有非常重要的意义。随着信息呈海量趋势,关系抽取已经成为一个热门的研究方向。自从关系抽取的概念被提出以来,在实体关系抽取方面的工作绝大多数都集中在有监督的机器学习方法。这些方法虽然有较好的准确性,但是需要标注大规模的语料,而这通常需要耗费大量的人力、物力。近年,弱监督与无监督方法相继被提出来。这些方法虽然能够解决有监督方法需要标注大量训练语料的缺陷,但是仍然存在特征获取不准和精度低等问题。本文提出了一个从大规模语料中提取实体关系的无监督的方法。该方法基于具有相同关系的命名实体对具有相似的上下文这一假设。在此假设之下,抽取关系的过程就可以转化为计算实体对上下文相似度的过程。本文的工作主要体现在三个方面:首先,引入了一个在文本处理领域把文本特征转换为数字特征的经典的向量空间模型,该模型表示方法是在关系的上下文中提取其特征项,并以某种方式对特征项赋予一定的权重构造特征向量,再依据各个特征对聚类的贡献对每个特征进行选择的方法;其次,为了提取向量化的实体对数据内存在的关系提出了一个改进的聚类算法,该算法不但能够显著地提高原有算法的准确率,而且运行的效率没有明显的下降;最后,提出了一个基于分类特征识别的方法来对实体对关系进行标记。为了验证提出的命名实体关系抽取方法的可行性与有效性,在ACE语料上的EMP-ORG、GPE-AFF、PHYS这几大类关系上进行了实验,从结果上可以看出本文提出的方法在这几个数据集上的效果都有一定的提高。同时,也与Hasgawa算法的结果进行了对比,本文的算法在效率与结果的准确性上都有一定的优势。实验表明,本文提出的基于聚类的无监督关系抽取方法对于本文所用的语料是有效的。
其他文献
随着多媒体信息技术和Internet的迅速发展,版权保护问题日益突出。数字水印技术作为信息隐藏技术研究领域的重要分支,也是版权保护的重要手段,己经受到越来越多的关注。其中,数字
学位
优化技术作为一个重要的科学分支,它一直受到人们的广泛重视,并在诸多工程领域得到迅速推广和应用,如规划、工程设计、医疗应用、图像处理和计算机科学等。约束性优化问题也一直
随着地理信息系统(GIS)理论和计算机图形学的飞速发展,三维GIS的建模和可视化成为当前国内外研究的一个热点。作为GIS应用的一个重要领域一城市,其三维模型的可视化和空间分析
传统的配色方法已经不能满足现代社会对染色配色技术的需求,针对这一问题,本文主要对从印染企业获取的实际数据进行相关性分析,最终建立了样本三刺激值CMY与染色染料浓度关系
嵌入式测控系统是当前工业自动化测控应用领域研究的热点之一。近年来,嵌入式Web成为实现嵌入式测控系统主要方式之一。本文利用Freescale公司2004年年底推出的集成了以太网
在多标签分类中,一个样本可能同时包含多个标签,多个标签之间可存在相互重叠。随着数据集的标签维度增高,以及标签稀疏性问题,会导致分类算法的计算复杂度增加,分类性能下降
目前的人工免疫系统大多都是建立在传统免疫学理论——“Self-non-self”(SNS)识别模式的基础上,由于SNS模型本身的缺陷,使得对self集定义中如何保证其不包含任何nonself以及
聚类分析作为一种信息处理手段近些年来一直受到人们的关注,而且在机器学习、模式识别、数据挖掘、信息检索等很多领域得到了广泛的研究和应用。聚类分析在数据挖掘研究中占
云计算可以提供多项服务,这些服务主要分为三种服务模式,分别为基础设施即服务(IaaS)、平台即服务(PaaS)和软件及服务(SaaS)。越来越多的企业和个人将他们的业务存储在云端,然而却给敏