论文部分内容阅读
知识库是人工智能的重要组成部分,而知识图谱是知识库的现代存在形式,是网络时代的产物。新一代的人工智能必定是符号主义与连接主义的相互融合与促进,人工智能进入认知智能时代。在这一背景下,知识图谱日益成为一种重要的资源,支撑人工智能系统的高性能运转,尤其是能够为实现人工智能应用的自主决策提供更加丰富的、更加可靠的依据,从而实现更高的智能而受到工业界和学术界的广泛重视。然而,尽管目前的知识图谱规模型宏大,但是几乎所有的知识图谱中都存在不完备的问题即知识图谱中还远未包含所有相关的事实以及现存实体之间的所有可能的关系。这一问题的存在导致它们的应用受限,甚至失败。因此,知识图谱的补全问题变得越来越突出。本课题主要是在封闭世界的假设下研究现存实体之间潜在关系的挖掘以及能够转化为这一问题的情形以实现知识图谱的补全。近年来,随着深度学习技术的发展,表示学习技术也取得长足的进步,为基于嵌入的知识图谱的补全问题的解决打下了坚实的基础。不幸的是,目前的知识图谱补全模型的设计似乎遇到了瓶颈:新提出的模型复杂性不断提高的同时却不能如预期提高其性能。本研究主要是考虑以较低的代价来提高模型的性能,通过对基于嵌入的知识图谱补全模型的探究,形成了对这一模型规律较全面的认识并从信息论的角度对其进行了解构,对于这类新模型的评估与设计构建了新的范式。总体而言,本文的主要工作如下:第一,通过海明距离提取多跳关系特征。在这一工作中,根据邻接矩阵自身的数学特征,引入海明距离实现隐式的任意长度的多跳关系的提取并提出HRESCAL模型,以增益后续分解中的特征量,从而提高特征提取的稠密性实现模型性能的提升。通过在预处理过程中对数据进行处理而避免提高模型的时间复杂度。第二,提高自由度增加模型的表达能力。由于平移方程本身是一个近似等式,增加自由度可以实现近似关系成为相等关系并提出模型Ros E,因而能提取到更多的特征,从而使得模型的表达能力更强,以支持更优的性能。进一步的研究表明,基于平移的模型在非线性变换平移方程的时候,仍然可以取得优异的性能结果。尽管平移方程中引入了自由度,我们把模型控制为只使用(?)1范数,从而确保了模型的复杂度保持在与平移嵌入相同的水平。第三,耦合模型增加特征提取的多样性。充分利用基于平移的和基于分解的模型对于数据不同特征的提取能力的不同,从而实现更加稠密的特征的提取并提出模型Trans RESCAL,以提高模型的性能。作为副产品,实验证实基于分解的模型头、尾实体的嵌入是人为确定的。模型强大的表达能力,使得在训练过程中,只需要很小的维数而把计算代价控制在较低的水平。第四,显式建模提取数据集的关键特征。这一模型是联合平移模型和量子嵌入模型并提出新的模型QLogic E,意图克服其在数据集WN18的性能欠佳的问题,而性能结果出乎意料大幅超出了现存最佳结果,而时间和空间代价维持在一个很低的水平,甚至突破了量子嵌入中指出的下界。为解决知识图谱补全任务带来希望。第五,通过信息论解构模型的表达能力。QLogic E模型对于量子嵌入模型下界的突破,激发了进一步对KGC模型的探索并提出DFM框架来刻画基于嵌入的模型的表达能力。从信息论的视角量化表达能力的要素并确定稠密特征模型的判断标准和极限值,从而更好地实现对基于嵌入的模型的评估与设计。总之,本文围绕基于嵌入的知识图谱补全模型展开研究。主要的研究工作包括从提取多跳关系特征、引入自由度、不同模型耦合及联合四个方面对其进行了较为深入的研究并形成了四个不同的知识图谱补全模型HRESCAL、Ros E、Trans RESCAL和QLogic E。在这些实证研究和相关的理论研究的基础上,形成了信息论视角的对这类模型的表达能力的刻画并给出了表达密度这一重要概念,用以表征这类模型的表达能力,从而构建了稠密特征模型的框架,进一步揭示这类模型的内在规律,致力于知识图谱补全问题的解决或为知识图谱补全模型的设计提供借鉴。