论文部分内容阅读
随着大数据爆炸式的增长,数据越来越庞大,想要从互联网上获得精确信息越来越难。近年来,随着深度学习的兴起,以深度学习为代表的表示学习技术受到了广泛的关注。表示学习也被应用到了大规模知识图谱的构建。词语的表示虽然有多种,如何更高效表示,成为了重要而基础的工作。目前一种表示学习(分布式表示)方法受到广泛关注。当前词是利用上下文信息映射到一个低维的空间中的向量,与传统的向量表示有所不同,这种词向量被映射成低维、实值、稠密的向量。低维有效的降低了计算的复杂度;实值化有利于消除词语之间语义鸿沟;稠密使得每一维度的数值都参与了计算。表示学习是一种很高效的表示方法。在知识库的表示中,知识一般是以三元组(头实体,关系,尾实体)的方式来表示。借助于词向量表示方法,将知识三元组表示为(头实体向量h,关系向量r,尾实体向量t)。由于词向量具有平移不变性的特点,经过一系列的线性变换,在实体知识三元组中,使得h+r=t等式成立。将头实体h加上某种关系r得到某个尾实体t。根据这个特点,有学者就提出了翻译模型,认为关系r可以看成是头实体h到尾实体t的翻译。由于翻译模型过于简单,对于复杂关系的表示并不理想,关系与实体混在同的空间里计算。通过一系列的矩阵映射,本文提出了一个新模型,翻译矩阵映射模型(TMM)。将头实体与尾实体分别映射到同一关系语义空间中,得到新的头、尾实体和关系表示。在复杂关系表示中,特别是歧义、噪声问题,翻译矩阵映射模型并不能有效捕捉这些信息。因此,本文提出了高斯消歧模型TMMG,将关系与实体看成是一个高斯分布,有效的消除了歧义关系。在链接预测评测实验中,实验结果显示新模型有较好的表现。实体知识图谱的表示中,推理分为规则的推理和基于图的推理。基于规则的推理需要依赖背景知识、经验等将大量规则加入到推理中,优点是推理精确度高,缺点是通用性差,需要人工制定规则。基于图的推理可以通过算法自动发现推理关系,优点是自动识别、通用性好,缺点是精确度不是很高。在知识图谱中,结点表示实体知识,边表示对应的关系。对较为重要的结点,给予加权,对于两个结点比较稀疏的关系路径可以次要考虑,基于这种思想,本文提出了加权图推理模型PIW,最后实验验证PIW模型在检索的精确度上有较大提升。