论文部分内容阅读
在互联网高速发展的今天,提高计算机的文本理解能力对自然语言处理领域的各方面应用都有很大的价值,实体链接就是帮助提高文本理解能力的任务。实体链接任务主要有两个步骤,首先将文本中所有有歧义的实体指称项(mention)识别出来,然后根据算法将识别出来的实体指称项链接到给定目标的知识库中。本文通过调研实体链接领域的相关研究,并在国内外现有研究方法的基础上,提出了两种实体链接算法,包括基于图的命名实体关联度模型(GECM)、结合深度学习和图模型的实体链接算法(CDLG)。在基于图的命名实体关联度模型中,本文的贡献是提出了一种新的构造图模型的方法,能够充分利用维基百科知识库中已有的知识,将候选实体之间的链接关系以及候选实体之间的主题联系起来,提高实体全局关联度的准确性。又提出了一种新的计算实体指称项与候选实体之间的语义相关度算法,使用候选实体在维基页面的类别与抽取出的待消歧文本中的维基概念进行词义相似度的计算,得出每个候选实体与待消歧文本的相似度,更深层次的挖掘出候选实体与实体指称项之间的语义关系。在此基础上,本文在图模型中融入了多种特征,设计出一种基于图的命名实体关联度模型。通过实验验证,本文提出的基于图的命名实体关联度模型效果优于传统的基于图模型的方法。然后本文又提出一种结合深度学习与图模型的实体链接算法,通过使用双向长短期网络(BiLSTM)设计出Mention-context模型和使用深度卷积神经网络(CNN)设计出Entity模型。这两种模型能从上下文中寻找支撑mention语义证据的特征,以及通过候选实体的类别标签和维基概念的描述中获得该entity真正的语义证据特征,再与图模型中得到候选实体的特征结合,并使用多层神经网络对mention和候选实体的关系进行预测。通过实验验证,本文提出的结合深度学习与图模型的方法的确优于只使用基于图的实体链接算法。