论文部分内容阅读
知识图谱问答任务是指以知识图谱作为答案信息来源的自动问答任务。借助知识图谱问答模型,用户通过自然语言问句描述其信息需求,就可以从知识图谱中获取正确答案。因此知识图谱问答具有重要的应用价值。目前学术界已有较为丰富的关于知识图谱问答的研究,但这些研究主要集中在特定的英文知识图谱上,无法简单地直接迁移到中文应用场景中。因此中文知识图谱问答仍需进一步深入研究。此外,现有的知识图谱问答模型都以有监督学习为主,需要依赖一定规模人工标注的问答对数据,这限制了知识图谱问答在低成本小领域场景的应用。针对上述问题,本文进行了如下三个方面的研究。(1)改进中文知识图谱问答的state-of-the-art模型。目前中文知识图谱问答的state-of-the-art模型将知识图谱问答任务分解为问句主实体识别,实体链接和关系预测三个子任务。本文指出该模型三个子任务各自独立训练没有有效地利用各子任务之间的相关信息;此外该模型将主实体识别建模为一个序列标注任务,没有对问句中包含的主实体个数进行显式约束。本文使用共享参数的多任务联合训练技术和pointer-network来分别解决这两个问题,进一步提升了中文知识图谱问答的state-of-the-art性能。(2)提出基于度量学习的无监督关系预测模型。上述知识图谱问答模型需要使用人工标注的问答对数据进行训练,该数据标注难度较大。本文针对该模型中的关系预测子任务提出了一种基于度量学习的无监督关系预测模型。该模型利用候选关系和主实体自身的文本作为元信息,构造示例样本来表示候选关系的语义,通过恰当的策略利用预训练语言模型为问句和示例样本构造语义表示,并提出了一种语义相似性度量函数来计算问句和候选关系之间的语义相似度,最终达到了较好的性能。无监督关系预测模型可以使本文的基线知识图谱问答模型对标注数据的依赖从问答对数据降低为问句-主实体数据,这将显著降低人工标注数据的难度和成本。(3)提出基于语言表示的端到端无监督知识图谱问答模型。该模型利用知识图谱中全部三元组的头实体和关系谓词构造示例样本,通过在语言表示空间中找到和问句语义最接近的候选示例样本得到问句的答案,实现了完全无监督的知识图谱问答。此外,该模型通过向量空间中的近似最近邻技术以很低的计算资源近似实现了问句和知识图谱中全部候选示例样本的语义计算,因此在大规模知识图谱上也具有很好的可扩展性。该模型不依赖任何人工标注的训练数据,因此具有更低的应用成本和更广泛的应用场景。