【摘 要】
:
数据质量是衡量数据好坏的重要标准之一。通常数据质量分为几个维度来评价数据的好坏:一致性,完整性,准确性,数据冗余。在许多领域中,如商业、音乐、体育等,这些数据源可能会提供劣质的数据信息。这些劣质的数据会给用户在很多方面造成不便(如数据冗余,不一致,不完整等),导致数据的利用有效性降低。因此我们需要一个快速有效的检测数据错误的方法提高数据的使用效率。一致性是数据质量的核心标准之一。当同一实体的相同属
论文部分内容阅读
数据质量是衡量数据好坏的重要标准之一。通常数据质量分为几个维度来评价数据的好坏:一致性,完整性,准确性,数据冗余。在许多领域中,如商业、音乐、体育等,这些数据源可能会提供劣质的数据信息。这些劣质的数据会给用户在很多方面造成不便(如数据冗余,不一致,不完整等),导致数据的利用有效性降低。因此我们需要一个快速有效的检测数据错误的方法提高数据的使用效率。一致性是数据质量的核心标准之一。当同一实体的相同属性出现不同信息,这个数据就是不一致的。数据不一致性会导致数据质量降低,在数据源指代同一实体时包含错误或矛盾的数据,使得数据源选择难度增大,数据源的可靠性降低。当前针对数据一致性的检测主要是通过检查数据是否违反依赖规则,例如函数依赖、条件函数依赖等来判定。然而,仅仅通过依赖规则来检测不一致错误是不够的,这是因为一个完全满足依赖规则集合的数据集依然可能存在着错误。为了发现目标数据集中更多的错误,我们考虑同时利用多数据源和依赖规则集合检测目标数据集中的不一致错误。然而,由于数据源数目的庞大,访问所有的数据源会引入巨大开销,这使得不一致检测的成本过于巨大。为解决该问题,我们考虑从数据源集合中选择k个数据源,使得能最大化检测目标数据集中的不一致。我们称其为“不一致检测中的数据源选择问题”。常见的依赖规则包含函数依赖和匹配依赖。第三章针对函数依赖规则集合,提出了基于函数依赖规则集合的多数据源选择问题;利用布隆过滤器技术,设计了一种有效的签名,使得在不访问数据源的情况下可以利用数据的签名对数据源进行有效的选择。第四章针对匹配依赖规则集合,提出了基于匹配依赖规则集合的多数据源选择问题;利用最小哈希技术对数据设计第一层签名后,再利用布隆过滤器技术对第一层签名设计签名,从而利用数据签名对数据源进行有效选择。理论分析和实验结果均证明了本文方法的正确性和有效性。
其他文献
随着移动互联网与多媒体技术的普及与发展,人们不但是图片和视频的使用者,而且是它们的创造者。在主客观条件的限制下,拍摄或传输过程中会伴随很多噪声,使用一些先进光学硬件
自我国《物权法》首次明确“预告登记”这一登记形式以来,抵押预告登记已在商品房预售中广泛运用。但是由于我国法对其效力的规定过于粗略,在面临复杂的实际纠纷时无法依据相
意境的呈现是中国古典戏曲外译的一个重要部分。从构成上看,意境是意象构成的景、由读者想象生发而成的“象外之象”,以及倾注于前两者中情感的结合。本文基于接受美学对读者
随着现代通信技术的发展,无线电技术已经深入到社会的各个领域。用户对高速无线传输技术的需求越来越多。这使得信号传输带宽变宽,频点也越来越复杂。实时感知当前频谱占用情
近些年来,世界各国特别是人口稠密的国家踩踏事故频发,这些事故多发生在因节日庆祝、宗教活动、体育赛事、交通枢纽等原因人群集聚的城市公共场所。在视频监控中对人群实现精准计数,为以公共安全视频图像处理和分析为核心的新型智慧城市建设提供信息支撑,起到加强城市管理和防范公共危机的作用。此外,人群计数在其他领域的迁移应用,如在交通领域的车辆计数、医学领域的细胞计数、生态领域的物种计数等,也会对整个社会的方方面
当前,我国设区的市都已享有地方立法权。设区的市人大作为地方立法权行使的主体,其立法能力的高低关乎着地方立法质量的好坏。加强设区的市人大立法能力建设是地方治理现代化
多部件系统的维修建模一直是可靠性工程领域的重要研究课题之一。维修建模通常以可靠性相关理论为研究基础,近年来,生存signature理论逐渐成为可靠性分析中一个非常强大的工具,它能将系统结构从用于描述系统部件随机故障的概率模型中分离出来。然而该理论目前在系统维修中的应用几乎等于空白,因此本文旨在将其应用维修策略的设计中,除了将生存signature运用到系统的可靠度评估中,还对其在系统的结构描述、部
随着统编高中历史教科书在越来越多地区投入使用,如何更高效地运用教科书成为众多历史教育研究者和一线历史教师亟待探索的问题。因此,本文以统编高中历史教科书中的“探究与拓展”栏目作为切入口来进行深入的探究。“探究与拓展”栏目作为现行统编高中历史教科书中的栏目和课后习题,不仅起到了丰富、补充和拓展教科书正文的作用,还为教师的教学和学生的学习提供了有效素材,更是为培育学生的历史学科核心素养提供了平台和依托,
在一带一路战略背景下研究我国西部城市人流网络与经济网络结构特征,对于充分解读我国西部城市群的空间结构和发展特征,摸清西部城市发展现状,具有重要意义。本文以丝绸之路经济带作为研究的出发点及研究背景,选取中国西部省份:陕西、甘肃、宁夏回族自治区和青海作为研究区,以腾讯人口迁徙数据和城市经济和人口数据作为研究的基础数据,基于流动空间理论、引力模型、社会网络分析方法等,测算网络中心度、联系度,网络密度和子
目的:探讨血清同型半胱氨酸(homocysteine,Hcy)与急性缺血性卒中(acute ischemic stroke,AIS)患者脑微出血(cerebral microbleeds,CMBs)的关系。方法:收集2017年4月至2018年3