论文部分内容阅读
随着互联网技术的发展,新闻、博客、社交媒体等网络文本呈爆炸式增长,如何从无结构或者半结构化的海量文本中挖掘出有价值的信息是自然语言处理领域重要的研究课题。实体是文本中承载信息的重要单元,正确识别和分析实体对文本的理解起着关键性作用。实体链接作为处理实体的关键技术得到了国内外学者的广泛关注。实体链接,即将文本中的指称链接到知识库中的一个无歧义的实体。实体链接可以识别文本中不同形式和类型的指称,并且将指称链接到知识库中的特定实体来消除指称的歧义性。因此实体链接在信息抽取、查询理解、自动问答等任务中有十分重要的应用。并且近年来,随着知识库的流行以及知识图谱技术的发展,实体链接的基础核心地位日益凸显。本文提出基于重启随机游走的实体识别与链接方法。首先从包含三种语言的文本语料中发现指称并使用上下文信息对指称进行扩充。然后在知识库中检索指称的候选实体,计算指称与候选实体以及候选实体之间的语义相似度。最后在指称和候选实体构成的图中进行随机游走,获得实体和指称的分布式表示,选择和指称分布最相似的实体作为链接实体。该方法在2015年TEDL任务中F值为0.665,高于其它参赛系统,排名第一。实验结果表明本文方法可以有效地提高系统性能。本文的主要贡献如下:1.建立知识库索引。以往的方法直接使用字符串匹配的方式,顺序检索知识库中的实体,效率十分低下。因此本文对知识库建立索引,在此基础上设计并实现了更加合理、完善的搜索策略,使得系统对知识库的检索更加快速、灵活。2.提出对指称-实体图进行扩充的方法。前人的方法仅仅使用文本中的指称和候选实体来构造图,导致指称-实体图往往出现不连通的情况,影响算法性能。因此,本文使用知识库中实体之间的联系对图进行扩充,避免了图出现不连通的问题,同时增强了图的语义表达能力。3.提出使用主题信息进行多文本协同实体链接的方法。多数方法往往只针对单篇文本进行实体链接,忽略了利用文本之间主题分布的相似性来丰富指称的上下文信息,降低指称的歧义性。因此,本文使用LDA(Latent Dirichlet Allocation)主题模型,对主题分布相似的文本聚类,将同一簇下的文本进行协同实体链接。4.基于easy-first策略,根据指称的歧义性,从小到大依次进行实体链接。传统的协同实体链接方法没有考虑到指称链接的顺序,以及利用指称的链接结果对图进行剪枝。当构造的指称-实体图中包含较多无关候选实体时,链接的效果较差。因此,本文先对歧义性较小的指称进行实体链接,然后利用链接结果对图进行剪枝,从而排除无关候选实体的干扰,提高随机游走算法的性能。之后在剩余指称中选择歧义性最小的进行链接,直到所有指称都链接完毕。在这一过程中,随着指称的不断消歧,图的语义表达也越来越准确。