论文部分内容阅读
知识图谱是人工智能的重要组成部分,能够更好的组织、管理和理解互联网中海量的信息并且以其强大的语义处理能力和开放互联能力将这些信息以结构化的形式呈现给人们。三元组“实体,关系,实体”是知识图谱的一种通用的表示方式,实体通过关系相互连接构成语义网络并以符号形式或者网状结构存储在知识图谱中,但是这样的表示方式却存在数据稀疏和计算效率不佳等问题,因此如何更好对知识图谱中的知识进行表示是提升知识图谱质量的关键。随着深度学习领域的走红,表示学习技术也逐渐受到人们关注,面向知识图谱进行表示学习成为构建高质量知识图谱的基础。知识表示学习旨在面向知识图谱进行表示学习,将知识图谱中的实体和关系映射到低维稠密的向量空间,在该向量空间下,实体和关系都被表示成向量形式,便于计算它们之间的语义关系和发现更深层次的语义联系。该技术可显著提升计算效率和缓解数据稀疏问题并实现多源异质信息的融合,对知识库补全和知识推理等下游任务的质量有很大提升。以往的知识表示学习技术都只利用了三元组本身的结构信息,但是知识图谱中还包含了大量的实体和关系描述信息、类别信息,甚至互联网中还存在大量未被加入到知识图谱的文本信息,这些信息都能够提升知识表示的区分能力却还未被发掘和利用。基于以上原因,本文将采用知识图谱的实体描述信息来增强实体的表示,从而提升知识表示的质量,主要工作如下:(1)在实体的表示学习过程中,引入实体的文本描述信息。实体描述信息是一种对实体的简单介绍,通过描述信息可以得知实体的属性和定义,将实体描述信息的文本表示与实体的结构信息相结合,使实体的表示包含更多的语义信息。(2)提出一种基于文本监督的表示学习模型TBTS,首次将Transformer结构引入知识表示学习中,利用部分Transformer结构学习实体的描述文本的表示,并对不同的注意力机制分配不同的权重,以最大化利用到不同子空间的信息。(3)利用对抗生成网络的思想,利用其他模型作为生成器来为模型提供更优质的负样本,解决“假负例”问题和“零损失问题”,从而提升模型训练的效率。模型在FB15K和WN18两个数据子集上进行实体链接预测和三元组分类任务实验,实验结果表明在两个评价指标上优于其他对比模型,证明模型能够利用文本信息对现有的表示进行提升。