论文部分内容阅读
随着人工智能技术的不断发展,知识图谱(Knowledge Graph)已成为结构化知识驱动智能应用的核心数据支撑。知识图谱本质是一种语义网络(Semantic Web),其节点代表实体(Entity)或者概念(Concept),边代表实体或概念之间的语义关系(Relationship)。知识图谱包含大量结构化知识,形如三元组:<左实体,关系,右实体>,例如:<奥巴马,出生于,夏威夷>;二元组:<实体,实体类型>,例如:<奥巴马,人物>。知识图谱帮助机器理解知识语义信息,广泛应用在语义搜索(Semantic Search)、问答系统(Question Answering)、智能客服(Intelligent Customer Service)等智能应用。然而,由于知识图谱自动构建中知识抽取技术的准确度有限,导致知识图谱面临非常严重的噪声问题,如:知识三元组噪声、实体类型标注噪声。因此,针对噪声的知识图谱建模技术具有重要的应用和研究价值。
知识图谱表示学习(RepresentationLearning)作为知识图谱的核心技术已经成为知识图谱领域的研究重点。表示学习是一种基于机器学习的方法,通过构建样本对象的语义模型,将样本对象嵌入到向量空间,用向量来表示样本对象,从而捕捉对象的语义信息或本质几何结构,在嵌入式向量空间中实现数据的分类、聚类或者推理等。然而,传统知识图谱表示学习模型面临两大问题:(1)它们忽略噪声问题,存在不足,会导致后续应用系统出现错误;2)它们只关注知识图谱关系预测,忽略知识图谱实体类型推理。
针对以上问题,本文提出了一种基于置信度的表示学习模型(TrustE),旨在解决噪声环境下实体类型表示学习问题,该模型能检测出现有知识图谱中可能存在的实体类型噪声,并实现实体类型推理。具体来讲,我们首先考虑到实体和实体类型语义上并不相同并且存在复杂关系,所以我们利用投影矩阵将实体和实体类型投影到不同的语义空间,然后利用构造的二元组(实体,实体类型)置信度来提升实体类型的表示学习。为了让置信度更具普适性,本文只考虑知识图谱的内部结构信息,并提出两种置信度:(1)基于二元组局部信息的置信度(Local tuple Trustworthiness,LT);(2)基于与二元组相关的三元组全局信息置信度(Globaltriple Trustworthiness,GT)。最后,本文在两个真实世界数据集FB15kET和YAGO43kET中做了实体类型噪声检测、实体类型预测、实体类型分类三个实验,实验结果表明TrustE模型的有效性明显优于其他最新基准模型,验证了TrustE模型在噪声环境下能学习到更好的实体类型表示,并实现实体类型推理。
知识图谱表示学习(RepresentationLearning)作为知识图谱的核心技术已经成为知识图谱领域的研究重点。表示学习是一种基于机器学习的方法,通过构建样本对象的语义模型,将样本对象嵌入到向量空间,用向量来表示样本对象,从而捕捉对象的语义信息或本质几何结构,在嵌入式向量空间中实现数据的分类、聚类或者推理等。然而,传统知识图谱表示学习模型面临两大问题:(1)它们忽略噪声问题,存在不足,会导致后续应用系统出现错误;2)它们只关注知识图谱关系预测,忽略知识图谱实体类型推理。
针对以上问题,本文提出了一种基于置信度的表示学习模型(TrustE),旨在解决噪声环境下实体类型表示学习问题,该模型能检测出现有知识图谱中可能存在的实体类型噪声,并实现实体类型推理。具体来讲,我们首先考虑到实体和实体类型语义上并不相同并且存在复杂关系,所以我们利用投影矩阵将实体和实体类型投影到不同的语义空间,然后利用构造的二元组(实体,实体类型)置信度来提升实体类型的表示学习。为了让置信度更具普适性,本文只考虑知识图谱的内部结构信息,并提出两种置信度:(1)基于二元组局部信息的置信度(Local tuple Trustworthiness,LT);(2)基于与二元组相关的三元组全局信息置信度(Globaltriple Trustworthiness,GT)。最后,本文在两个真实世界数据集FB15kET和YAGO43kET中做了实体类型噪声检测、实体类型预测、实体类型分类三个实验,实验结果表明TrustE模型的有效性明显优于其他最新基准模型,验证了TrustE模型在噪声环境下能学习到更好的实体类型表示,并实现实体类型推理。