面向知识图谱的实体对齐和知识补全

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:yunkang0820
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的快速发展,知识图谱作为该领域内的重要基础技术,其重要程度也日益提升。各大企业和研究机构纷纷推出了自己的知识图谱。知识图谱的构建以相关语料库为基础,但仅仅使用单一语料库会导致信息的覆盖面较低,存在信息丢失的情况。因此需要对多个语料库进行融合,从而构建一个完备的知识库,进而可以有效解决信息缺失的问题。而有效的实体对齐技术正是数据融合的关键所在。另一方面,知识图谱一般将实体表示为网络中节点,关系表示为节点之间的边。我们可以通过现有知识去推论潜在知识,进而补全知识图谱。现有的知识图谱补全大多采用以翻译模型为代表的知识表示学习模型,但翻译模型没有充分利用知识库自身实体三元组结构外的实体描述文本,而这些实体的描述文本也可以为知识图谱补全提供大量的信息。本文从以上两个方面出发进行了深入研究,主要研究内容如下:(1)针对目前中文百科实体对齐方法中忽略非结构化摘要文本的语义信息的问题,通过引入改进的WMD(词移距离模型)算法,提出一种基于实体属性和摘要文本信息的中文百科实体对齐方法。本文首先对实体属性的属性名和属性值进行规范化处理后,通过编辑距离算法计算属性相似度。其次,对摘要文本通过改进的WMD算法计算摘要文本的语义相似度。在综合两个相似度之后来完成实体对齐任务。最终,通过实验证明,该方法较好的提升了实体对齐的效果。(2)由于现有的表示学习模型未能充分利用实体的描述文本,为此,本文提出了一种融合文本信息的知识表示学习模型。通过使用深度卷积神经网络来对实体的描述文本进行编码,进而得到文本表示语义信息,同时使用Trans H模型对头尾实体进行映射建模,然后基于两者建立了一种联合学习模型。实验证明,相较于原有的知识表示模型,该模型具有更为良好的表现。(3)构建一个小型的千岛湖旅游知识图谱。在爬取、存储了携程、艺龙、大众点评等网站的千岛湖景点、酒店、餐饮的相关旅游信息之后,通过上述设计的实体对齐算法将多源的数据信息进行融合对齐。其次,使用融合文本信息的知识表示学习模型对融合后的知识库进行补全,进一步丰富了千岛湖旅游知识图谱。
其他文献
作为深化基层医疗卫生改革和推进健康中国战略的核心政策和重要支撑,家庭医生签约服务政策在全国范围内的签约率节节攀升,在“量”的层面上实现了巨大飞跃。然而,在“质”的层面上,家庭医生签约服务的履约率依然偏低,“签而不约”的现象非常突出。因此,本文基于街头官僚的理论视角和田野调查的实践经验,遵循“政策执行策略的产生逻辑——政策执行策略的选择——家庭医生签而不约”的分析逻辑,构建了社区医务人员的政策执行策
作为原油储集量最高的非常规油藏,裂缝性油藏由于具有非均质性强、裂缝网络发达等特点,因此水驱采油时需对其进行调剖、堵水操作。作为目前应用最广泛的调剖剂,泡沫及凝胶分别存在起泡能力与泡沫稳定性难以兼顾、高摩擦力阻碍深部调剖的问题。针对上述问题,本论文利用一锅法成功合成了新型的巨型表面活性剂稳泡剂及双网络自润滑水凝胶调剖剂。评价了巨型表面活性剂提高泡沫稳定性及起泡能力的性能,并研究其作用机理。考察了温度
水资源作为灌溉农业发展最重要的限制因子,它直接决定着灌溉面积的大小、农作物的经济效益以及地区农业的发展。据水利部2018年统计,我国农业用水总量占总用水量的61.4%,而我国90%以上的农业用水用于灌区灌溉。对于农业用水紧缺问题,如何通过减少灌区水资源损失,提高灌区水资源利用效率成为当下研究的重要课题。灌区渠道承担着灌区渠系输水、配水等功能,而减小渠道输、配水过程中的水量损失也是灌区节水的重要手段
目的:探讨慢性肾脏病患者中心动脉压的无创测量和有创测量的一致性以及慢性肾脏病患者中心动脉压的特点及临床意义。方法:选取2018年05月至2018年12月在暨南大学第二临床医学院深圳市人民医院导管室行冠状动脉造影检查或介入治疗符合研究入选及排除标准的120名患者为研究对象,分为对照组、CKD3-5期组及透析组。分别测量三组患者的外周肱动脉压、无创及有创中心动脉压,并记录纳入患者的临床资料、实验室指标
地铁牵引传动试验平台是地铁车辆出厂前检测其关键部件性能的重要测试系统。测试期间,牵引电机需要频繁经历启动加速和制动减速,加速时消耗大量的电能,而制动时减速过程又产生一定数量的再生电能。再生电能会造成直流母线电压波动,国内试验平台多采用泄放电阻来消耗掉再生电能,既白白消耗掉再生电能,又增加排风散热设备的耗能,形成不必要的二次电能浪费。为实现再生电能的回收再利用和减小再生能量对直流母线的冲击,本文在构
在人们的日常生活中和很多石油化工企业中,关于管道内气液两相流的现象是非常常见的,比如说在化学药品的生产、石油得生产、能源和动力工程中、油气管道的运输过程中,空调的制冷行业等都会有关于气液两相流的问题。当我们研究气液两相流时必须以两相流的流型为基石,当我们要处理关于两相流带来的问题时,那么我们必须要对两相流的流型进行准确地辨识,而要想能够正确地识别气液两相流的流型,则需要使用合适的方法对流型的特征进
现代化技术在教育领域的应用愈加广泛,对提高教学质量和教学效率做出了很大贡献。在中学物理实验教学中应用现代教育技术,有助于学生更好地观察实验现象、更加深入地理解背后
花青苷是一种具有生物活性的黄酮类化合物,广泛存在于各种植物中,是大多数水果、蔬菜、鲜花和谷物的呈色物质,具有强抗氧化性。血橙(Citrus sinensis)富含花青苷,是一种重要的甜橙栽培品种。本研究比较分析了三个血橙品种的果实品质;探究了果实发育过程中花青苷含量变化;克隆果实汁胞细胞中一个MYB转录因子(CsMYB)全长表达序列,开展了生物信息学分析及基因表达模式研究;原核表达CsMYB重组蛋
质子交换膜燃料电池(Proton Exchange Membrane Fuel Cell,PEMFC)作为一种高能效、无污染的新能源发电装置具有良好的应用前景。本文主要采用有限元分析的方法对PEMFC的性能
本文立足于人类中心主义思想,基于哲学认识和理论的螺旋式渐进过程,采用分析总结、归类例证的研究方法,对助课任务的准备过程、交传过程、产生的问题进行了分析和总结。本文尝试通过认知学角度描写了交传过程,并针对交传过程出现的问题尝试提出相应的解决方案,并在前人对科技翻译以简为美的基础上建议助课交传时应尽量简明,使用简明助课交传。尝试提出简明助课交传的概念,并总结简明助课交传中使用到的一些原则和技巧。助课任