论文部分内容阅读
知识图谱作为一种重要的结构化语义知识数据库,包含了大量形如<左实体,关系,右实体> 三元组的知识事实,目前已经成为很多人工智能应用的核心数据支撑,如语义搜索、问答系统等,具有重要的研究价值。知识图谱的数据来源包括百科类数据、半结构化数据和搜索日志数据等。知识图谱的构建追求不断地扩充知识图谱涵盖的结构化知识。然而,现实世界中的知识在不断地增长,知识图谱的构建成为一个永不停止的动态过程,总是面临非完备性的问题。本文通过挖掘知识图谱中已存在的知识,推理或者预测知识图谱中可能缺失的隐含知识,从而扩展知识图谱的覆盖面,即围绕知识图谱自动演进问题展开研究。首先,针对知识图谱非完备性问题,本文提出一种基于潜在向量(Embedding)方法的成对交互分化潜在向量模型(Pairwise-interaction Differentiated Embeddings,PIDE),该模型对知识图谱中的三元组基于以下两个假设进行建模:(1)三元组成立的置信度取决于其中实体和关系的成对交互作用,即(左实体、关系)、(关系、右实体)和(左实体、右实体);(2)三元组中实体具有语义和语法信息,而关系则主要提供语法信息。通过训练成对交互分化潜在向量模型,学习实体和关系的潜在语义向量与语法向量的关联性,然后预测知识图谱中可能存在的三元组,从而实现知识图谱自动演进。本文进一步提出了基于最大排序似然概率(Maximum Ranking Likelihood,MRL)的模型优化算法。基于真实数据集的实验成功验证了本文所提模型以及优化算法的优异性能。其次,由于基于PIDE模型的方法无法直接学习出新实体的潜在向量,从而导致其无法预测包含新实体的知识三元组。针对该问题,本文考虑利用额外的辅助文本信息来解决缺乏新实体潜在向量的问题。知识图谱通常记录了实体描述文本信息,详细解释了实体含义,包含丰富的语义信息。受零样本学习算法(Zero-shot Learning)启发,本文提出一种基于知识图谱和实体描述文本的联合潜在向量(Embedding)模型(Jointly Embedding Model,JointE),该算法的关键创新点在于利用实体描述文本来计算新实体的潜在语义向量,进一步实现了知识图谱中包含新实体的知识三元组预测。最后,通过实验验证所提模型的实用性。然而,有些知识图谱缺乏实体描述文本,导致JointE模型无法在该类知识图谱上实现包含新实体的三元组预测。针对该问题,本文基于互联网上大量出现的非结构化文本信息,提出一种基于潜在向量转化神经网络(Translating Embedding Neural Network, TENN)的模型,联合利用知识图谱和非结构化文本语料训练,从非结构化文本语料中发掘新实体,实现了包含新实体的三元组预测。通过在真实数据集上的实验,验证了该算法的有效性。最后,在上述知识图谱中知识预测算法思路的基础上,本文提出了一种基于潜在向量(Embedding)方法对信息推荐数据建模的算法。信息推荐数据在结构上类似于知识图谱,由大量形如 < 用户、评分、项目>三元组的数据构成。该算法把信息推荐数据看成一种类似于知识图谱的多关系网络,在推荐系统中实现评分预测、用户预测和项目预测。本文进一步把所提模型应用到跨域推荐中,实现多领域的推荐生成。最后通过在真实数据集上的对比实验,验证了所提模型的有效性。