知识图谱自动演进算法研究

来源 :北京邮电大学 | 被引量 : 9次 | 上传用户:xiaozhui221
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
知识图谱作为一种重要的结构化语义知识数据库,包含了大量形如<左实体,关系,右实体> 三元组的知识事实,目前已经成为很多人工智能应用的核心数据支撑,如语义搜索、问答系统等,具有重要的研究价值。知识图谱的数据来源包括百科类数据、半结构化数据和搜索日志数据等。知识图谱的构建追求不断地扩充知识图谱涵盖的结构化知识。然而,现实世界中的知识在不断地增长,知识图谱的构建成为一个永不停止的动态过程,总是面临非完备性的问题。本文通过挖掘知识图谱中已存在的知识,推理或者预测知识图谱中可能缺失的隐含知识,从而扩展知识图谱的覆盖面,即围绕知识图谱自动演进问题展开研究。首先,针对知识图谱非完备性问题,本文提出一种基于潜在向量(Embedding)方法的成对交互分化潜在向量模型(Pairwise-interaction Differentiated Embeddings,PIDE),该模型对知识图谱中的三元组基于以下两个假设进行建模:(1)三元组成立的置信度取决于其中实体和关系的成对交互作用,即(左实体、关系)、(关系、右实体)和(左实体、右实体);(2)三元组中实体具有语义和语法信息,而关系则主要提供语法信息。通过训练成对交互分化潜在向量模型,学习实体和关系的潜在语义向量与语法向量的关联性,然后预测知识图谱中可能存在的三元组,从而实现知识图谱自动演进。本文进一步提出了基于最大排序似然概率(Maximum Ranking Likelihood,MRL)的模型优化算法。基于真实数据集的实验成功验证了本文所提模型以及优化算法的优异性能。其次,由于基于PIDE模型的方法无法直接学习出新实体的潜在向量,从而导致其无法预测包含新实体的知识三元组。针对该问题,本文考虑利用额外的辅助文本信息来解决缺乏新实体潜在向量的问题。知识图谱通常记录了实体描述文本信息,详细解释了实体含义,包含丰富的语义信息。受零样本学习算法(Zero-shot Learning)启发,本文提出一种基于知识图谱和实体描述文本的联合潜在向量(Embedding)模型(Jointly Embedding Model,JointE),该算法的关键创新点在于利用实体描述文本来计算新实体的潜在语义向量,进一步实现了知识图谱中包含新实体的知识三元组预测。最后,通过实验验证所提模型的实用性。然而,有些知识图谱缺乏实体描述文本,导致JointE模型无法在该类知识图谱上实现包含新实体的三元组预测。针对该问题,本文基于互联网上大量出现的非结构化文本信息,提出一种基于潜在向量转化神经网络(Translating Embedding Neural Network, TENN)的模型,联合利用知识图谱和非结构化文本语料训练,从非结构化文本语料中发掘新实体,实现了包含新实体的三元组预测。通过在真实数据集上的实验,验证了该算法的有效性。最后,在上述知识图谱中知识预测算法思路的基础上,本文提出了一种基于潜在向量(Embedding)方法对信息推荐数据建模的算法。信息推荐数据在结构上类似于知识图谱,由大量形如 < 用户、评分、项目>三元组的数据构成。该算法把信息推荐数据看成一种类似于知识图谱的多关系网络,在推荐系统中实现评分预测、用户预测和项目预测。本文进一步把所提模型应用到跨域推荐中,实现多领域的推荐生成。最后通过在真实数据集上的对比实验,验证了所提模型的有效性。
其他文献
目的:本研究从医学信息学的视角出发,以搭建疾病预测模型构建策略为目的,探究海量异构的电子病历数据中隐性知识到显性知识的发现途径。同时,进行糖尿病视网膜病变预测模型构
中华文化源远流长,是中华民族5000多年来的智慧结晶,在新形势下如何继承与弘扬传统文化,使传统文化在世界各国文化交流、融合的大潮中不断焕发新的生机,是值得我们深思的问题
目的探讨护理干预在促进急性脑梗死神经功能恢复、改善生活质量中的应用效果。方法将90例急性脑梗死患者随机分为观察组和对照组,对照组采用常规护理,观察组给予早期康复、心
随着互联网技术的飞速发展,海量的互联网文本数据给实体关系抽取的研究引入了新一轮的机会与挑战。开放式的实体关系抽取不同于传统的实体关系抽取方法,不需要事先确定好关系
对麻疹疫苗生产工艺进行了改进研究。在病毒培养过程中 ,以病毒生长稳定剂替代白蛋白、减少维持液加量、延长病毒培养时间并缩短病毒释放时间 ,提高了病毒原液的滴度。由此可
习近平传统文化观是马克思主义中国化的最新理论成果,更是习近平治国理政思想的重要组成部分。习近平高度重视传统文化,多次在各种场合对传统文化进行了论述。作为国家新一代
矮塔斜拉桥兴起于近三十年,这是一种建立在斜拉桥的基础上经过改良创新发展起来的新型桥梁结构形式,从结构特点来分析,矮塔斜拉桥是在连续梁桥与斜拉桥之间的一种过渡桥型。
综述了近年来吸附精制废润滑油的研究进展并对吸附精制的作用机理进行介绍;吸附过程是包括阳离子交换、π络合吸附、酸碱中和、离子-偶极作用等多种机制共同产生的效果,这对
在运营主题公园的过程中,通过应用营销策略可以提升主题乐园的知名度,使消费者的目光被极大的吸引,促进销售收入的提升,同时也是让消费者可以反复选择来此游玩手段。因此怎样
德国是世界汽车的发源地之一。在强劲出口的带动下,2010年汽车总产量达到590.60万辆,同比增长了13.36%;而汽车注册量为319.85万辆,同比下降了21.01%。本文将就德国汽车市场的现状、相关