论文部分内容阅读
歧义的存在使得实体链接任务需要大量信息的支撑。已有研究主要使用两类信息,即实体表述所在文本的信息和外部的知识库信息。但已有研究对信息的使用存在以下两个问题:首先,最新通用知识库规模更大、覆盖面更广,但目前的实体链接模型却未从中受益,其性能没有相应的提升;其次,表述所在的文本信息既包含表述所处的局部上下文信息,也包含文本主题之类的全局信息,文本自身信息的利用率还需进一步提升。针对第一个问题,本文给出了一个融合文本相关度和先验知识的实体候选集抽取策略,提高了对知识库中有效知识的提取;对第二个问题,文本给出了一个融合局部和全局信息的自注意力机制与高速网络相结合的神经网络实体链接框架。在6 个实体链接公开数据集上的对比实验表明了本文提出方案的有效性,在最新的通用知识库上本文给出的实体链接模型取得了目前最好的性能。