【摘 要】
:
随着信息化进程的推进,许多计算机应用中会用到图数据库,如:推荐系统、知识图谱、社交网络等。但是,由于在获取、解析数据的过程中存在误差、干扰等因素,常常会导致这些应用
论文部分内容阅读
随着信息化进程的推进,许多计算机应用中会用到图数据库,如:推荐系统、知识图谱、社交网络等。但是,由于在获取、解析数据的过程中存在误差、干扰等因素,常常会导致这些应用中存在着不确定数据。概率数据库可以存储不确定数据并且返回带有置信度的查询结果。但不确定性的累积和传播有时会降低查询结果的可用性,令用户不满意。数据的不确定性严重影响了数据的性能。因此,有必要降低概率数据库的不确定性。RDF被广泛用来表示知识图谱,对概率RDF数据库的研究是计算机研究领域中的热点之一。目前,多数清洗问题主要集中在关系数据库和模式匹配领域,还没有关于概率RDF数据库上SPARQL查询的数据清洗研究。如果使用K-path中心性等依据来选择边进行清洗,其结果在质量提升方面的效果不是很好,需要设计新的清洗算法。但是对于大规模概率数据库而言,将所有数据进行清洗是不切实际的。只需对那些能够使得查询质量提升最大的若干数据进行清洗即可。本文处理的就是在一定的预算下清洗RDF数据库使得查询质量提升最大化。众包平台的出现使得数据清洗变得更加方便,可以先用清洗算法选出能使查询质量提升最大的数据,,然后通过众包平台进行清洗。本文首先介绍了概率RDF数据库模型,然后分析该模型上的图查询如何由众包来提升查询结果的确定性。其基本思想是让众包工作者决定边表示的关系是否正确,以降低整个查询的不确定性。通过分析,本文提出了3种不同算法来选择使得查询质量提升最大的边。朴素算法需要对每条有效边计算信息增益,效率不高。在此基础上,通过两种剪枝方法缩小待选有效边的规模提出了剪枝算法。此外,本文还针对满足Pr(PHI)= 0的查询提出了快速优化算法,只需计算每个有效属性中最接近0.5的那条边的信息增益即可,大大减少了运算量。最后,将本文提出的算法与WERW-Kpath算法等进行比较,得出本文所提出的算法在查询质量提升方面效果很好。在时间上,剪枝算法比朴素算法要快,当查询满足Pr(PHI)= 0,快速优化算法的效率最高。该问题的解决对于大规模RDF知识库上的高质量检索查询具有实际意义。
其他文献
随着互联网的开放普及、业务数据海量增加,极大地促进了云计算的发展。根据云计算应用不同,出现了云存储、云物联、云计算、云游戏等各方面领域的应用,云计算在中国乃至世界
近年来,随着信息化社会的不断进步,无线频谱资源越来越紧张,无线电磁环境日趋复杂,正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)技术由于其高效的频谱利
(不)礼貌是语用学研究的一个重要课题。到目前为止,大多数的研究都集中在真正的礼貌和不礼貌的研究上,然而许多与礼貌相关的研究并不直接地适合这两个对立的极端,比如虚假(不)礼貌。作为礼貌言语交际中的一种特殊的社会情感功能,虚假礼貌和虚假不礼貌通常具有其独特的韵律模式并与其话语的字面解释相悖。因此,本实证研究对汉语普通话中真/假(不)礼貌的产出与感知研究具有重要意义。本研究旨在探讨普通话(不)礼貌话语在
目的:通过观察蒙药苏龙嘎-4汤治疗小儿热泻的临床疗效,为该汤剂治疗小儿热泻提供依据。方法:选择2018年12月至2020年01月之间在内蒙古自治区国际蒙医医院儿科符合小儿热泻诊断标准的患儿共72例,随机分为观察组和对照组,每组36例,5天为1个疗程,共治疗1个疗程。对治疗前后两组大便次数、大便性状、发热、呕吐、腹痛、食欲及脱水征等均予以量化评分,采用SPSS23.0进行数据统计分析。结果:(1)两
随着互联网大数据时代的到来,如何从过载的信息中快速而准确的获得需求信息成为了研究热点。RSS技术的出现改变了用户传统获取信息的方式,为解决“信息过载”问题带来了新途
在供电公司中,信息机房是电力系统中的重要基础设施,主要承担着为供电公司配电网以及内部办公业务体系提供数据网络通信的重要功能。信息机房中通常需要部署大量的网络通信硬
无线充电是解决无线传感器网络所面临能源限制问题的一项极具前景的技术。最近研究表明,在无线可充电传感器网络中引入谐振中继器来实现对传感器节点的多跳充电,可显著地延伸
课堂理答行为属于问答行为的一部分,是教师对学生回答的反应与处理,由于理答行为表现细微,在课堂教学中不易引起教师的重视,但教师的理答行为对于学生的学习发展甚至终生学习确实有着不可忽视的作用。当前高中化学课堂教学中理答现状如何?存在哪些问题?造成这些问题的原因是什么?根据原因分析提出具体提高化学教师理答行为水平的策略,都是本文需要观察与解决的问题。本文依次采用分析文献法、课堂观察法、专家咨询法和熵值赋
近几年移动设备和移动网络服务的发展迅速,在蜂窝网络中产生了巨大的流量。流量暴增带给运营商巨大的挑战,运营商需要提出一种高效并且低成本的方法解决蜂窝网络资源紧缺的压
抽象语义表示(Abstract Meaning Representation,AMR)结构是一种新的旨在对整个自然语言句子进行语义表示的结构形式。AMR通过引入一个带根节点的有向无环图表示句子的语义,