论文部分内容阅读
知识图谱在工业应用中拥有越来越重要的地位,同时也是人工智能领域重要的基础设施。知识图谱或知识库中拥有大量的事实,主要由数目繁多的实体与它们之间的相互关系所构成。此外,知识图谱一般还会包括针对每个实体的自然语言描述文本,一般是实体的一句话简介。这样的实体描述可以直观地向用户呈现实体的概要信息,从而在工业界中有广泛的应用。本文提出了一种基于已有的大规模知识库自动生成实体描述的方法,主要使用先对知识库进行一定程度的补全,然后使用端到端神经网络模型进行文字的生成,最后演示了在面向最终用户的问答系统中应用实体描述的方法。知识库的补全涉及表示学习的方法,通过学习实体和关系的低维向量表示,实现补全部分缺失实体的效果。以往的方法中主要都是设计判别式的模型,本文提出了在较新的对抗训练框架下结合判别式模型和生成式模型的新方法,使得系统性能在现有的判别式模型基础上获得了进一步的提升。在补全了知识库之后,本文采用编码器解码器框架,提出了一个端到端的神经网络模型。编码器和解码器均为神经网络,解码的过程中还使用了关注机制来建模实体描述的每个词与知识库数据的相关性。通过这个方法即可联合学习实体描述生成中的两个重要步骤,即内容选择和表述具现化。此外,本文主要讨论了知识库上的多跳事实的重要性。为了提升句子的流畅度,这个模型可以编码知识库中的多跳事实,并提升了自动化评价指标。最后,问答系统是知识库的一个典型应用。为了演示实体描述的作用,本文展示了在问答系统中使用实体描述的一种方法。本文设计了一个针对真实场景下的问答系统,其构建方法包括模板匹配和语义解析两大类手段,分别应对不同的用户问句。实体描述可以作为一个排序特征嵌入现成的框架之中,本文设计了一个神经网络的匹配模型,用于建模用户问句和实体描述之间的相似性,从而给出用户问句对于每个实体的一个打分。这个功能最终作为一个微服务,嵌入问答系统中。