基于签名的数据一致性评估技术的研究

来源 :黑龙江大学 | 被引量 : 0次 | 上传用户:jack196409
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的发展,信息作为一种战略资源和生产要素已经成为社会正常运转和企业生命线的基础。但是,当前的信息或数据质量水平并不乐观。全世界每年在确保数据质量或解决错误或不准确的数据(质量差)的问题上花费了大量的资金。数据质量问题已经越来越引起政府部门、研究机构和企业的越来越广泛的关注。如果没有良好的数据质量,使用错误的数据来进行决策,很容易导致负面结果。数据的不一致性会导致数据的质量下降,导致决策不当和带来重大的损失。因此,为了支持做出正确的决策,获得更多的收益,我们需要对数据的一致性进行评估,当前针对一致性评估问题,主流的方法是通过语义一致性来对数据集进行评估。然而,在如今这个数据量爆炸的时代,对数据集进行一致性评估,还存在着许多挑战。其中最大的挑战是,为了得到精确的一致性评估结果,我们需要对相关数据源进行一一访问。由于数据源数目非常庞大,如果访问所有的数据源来对一致性进行评估,会导致花费高昂的成本。为了解决该问题,我们提出了不直接访问数据源来对数据集的一致性进行评估。为了有效的评估数据集的一致性和提高数据一致性评估的效率,本文从多数据源的角度,对评估目标数据集的一致性进行研究,主要研究成果如下:1.本文设计了数据一致性测量和评估框架,在一致性评估问题上,本文研究了多数据源下的一致性评估,提出了多数据源下的数据一致性测量与评估测度,并给出了一致性评估的精确算法;2.本文提出了基于函数依赖(FD)的一致性评估算法,首先,我们利用最小哈希的技术,设计了一种有效的签名,该签名的规模远远小于原数据源的规模,接下来,我们根据提出的一致性评估框架,利用生成的签名对数据集进行一致性评估,最后,我们分别在两个真实数据集上进行了对比实验,实验结果证实了算法的正确性、有效性;3.本文提出了基于匹配依赖(MD)的一致性评估算法,由于匹配依赖涉及到模糊匹配,因此我们在最小哈希签名的基础上设计了两层签名来对多数据源下的基于匹配依赖规则对数据集进行一致性评估。首先,我们构造第一层签名,然后,再利用最小哈希技术对第一层签名设计签名,对数据再次进行压缩,从而利用数据签名对数据源进行有效的一致性评估,最后,我们在两个真实数据集上分别进行了实验,实验结果表现出我们的算法是快速且有效的。
其他文献
本翻译报告基于《世界英语与文化战争》的第一、二章的翻译实践。作为一本典型的学术著作,这本书是由伊利诺伊大学厄巴纳香槟分校语言学教授布拉杰B.坎昆所著,他一生开创并致力于世界英语的研究。坎昆揭示了英语变体的发展和由此引发的文化战争。在翻译过程中,译者运用了多种翻译技巧,并通过具有代表性的案例来说明这些难点是如何得到解决的。译者在仔细分析原文的语言特征和写作风格后,采用目的论作为理论支撑。在目的论的指
改革开放以来,我国市场化进程加速推进,创新投入逐年增加,市场化进程如何影响创新效率的提高成为关注的热点。对此,本文基于我国31个省(自治区,直辖市)2003-2017年的数据,将创新过程分为技术创新阶段和成果转化阶段。一是利运用DEA-Malquist指数方法测度了我国各区域创新效率值,发现:我国技术创新阶段综合效率呈一定程度下降趋势,但在成果转化阶段综合效率呈增长趋势;在技术创新效率阶段,技术进
礼物,作为人类社会中一个古老的话题,在人与人之间的交往中一直发挥着独特的作用。教育场域中的礼物本应该是教师与学生之间纯碎的情感互动,但是近年来,引起人们重视的却是教育场域中礼物的异化问题。本文主要选取两位一线的中小学教师作为研究对象,通过参与学校生活以及访谈的方式,了解目前教育场域中礼物异化的真实情况,希望探索出如何使教育场域中的礼物回归本性的对策。本研究中的礼物指的是在教育场域中师生之间、家长和
太阳能由于无污染和储能丰富的优势,被认为是最具有前景的新能源之一。太阳能电池作为一种直接将光能转化为电能的装置,已经成为一个热门的产业和研究领域,但是由于其生产成本较高和转换效率偏低,并没有得到广泛的应用。因此,提高太阳能电池的转换效率和降低成本是主要的研究目标。纳米结构的太阳能电池具有转换效率高、硅材料用量少、对硅的品质要求低(从而降低制备晶体硅对环境污染)等优点,受到人们广泛关注,已成为太阳能
近现代(1902—1949)上海的学校舞蹈教育是中国现代舞蹈美育的源头,也是中国近现代学校教育发展历程中的重要阶段,它体现了舞蹈教育在当时上海学校中的开展情况。在国门打开后,学校舞蹈教育借助体育学科,不断兴起并逐渐发展。它吸收了西方的教育模式,经历了近现代中国教育体制的演变。在改革中肯定舞蹈教育在学校课程中的重要性,体现了民主与科学的教育理念。教学内容从仿效欧美的土风舞、优秀舞、形意舞,到挖掘出我
近年来,电子商务的交易需求和金融科技的不断创新使第三方支付飞速发展。现如今第三方支付成为交易结算过程中的首选,不仅逐渐渗透到社会生活的方方面面,同时这种使货币脱离传统货币体系的交易方式对货币流动性产生了很大影响。只有全面把握第三方支付对货币流动性的影响机理,才能合理利用好第三方支付服务社会经济,才能使货币政策实施效果达到最优。本文在梳理第三方支付和货币流动性现实状况的基础上,结合传统货币理论分析第
本文选取中级和高级水平的东南亚华裔留学生为实验被试,采用移动窗口技术,设计了听觉实验和视觉实验,考察了韵律边界和续接语境对中高级汉语水平留学生“V+N1+的+N2”歧义结构加工的影响,以及他们对“V+N1+的+N2”歧义结构的心理表征,研究发现:(1)语境对中高级汉语水平留学生歧义结构的理解起到了主要的作用,中级和高级汉语水平留学生对韵律边界的感知不存在明显差异。听觉层面的韵律边界对留学生理解歧义
随着音视频通讯、智能语音交互系统和物联网的飞速发展,基于传声器阵列的语音增强在很多音频终端设备上得到了应用。在众多语音增强应用中,如果待抑制的噪声是来自干扰话者的语音,则噪声与期望信号统计特性是同质化的,语音分离是应对这类场景的有效手段。基于阵列的波束形成和盲源分离都可用于语音分离。相比而言,盲源分离算法对传声器阵列的单元数、单元间距和一致性的要求不高,且不需要声源位置等先验信息,可以在成本有限的
唐宋之际,社会转型时期的进士科是最重要的入仕门径,而北宋科举制度的严密化、公平化也一向为人所称道。但制度从未像它最初设计的那样原封不动地实行,前人对北宋进士科的研究多是在制度成型以后进行的,但对它的形成过程研究相对薄弱,尤其是对北宋前期进士科的反复改革以及进士制度与政治时势、地域文化之间的关系揭示的不多。前人研究资料丰富,在此之上我们可以做更为精细化的研究。本文讨论的中心是北宋前期进士科的形成过程
随着计算机的飞速发展,理论化学和计算化学在化学领域占据着重要的地位,利用理论方法计算化合物热力学性质的研究日渐增多。理论计算可以针对任何化合物,且不受反应温度、压力、时间等条件约束,即可得到其热力学数据。其中标准生成焓是重要的热力学性质之一,也是计算反应焓、平衡常数和反应产率的重要数据。药物和染料是重要的日常生活必需品,而它们的标准生成焓的测定数据有限。因此,本论文采用理论方法研究了药物和染料分子