结构化数据可用性违背的检测与修复研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:mengminyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,IT产业迅速发展,各领域都积累了大量的信息数据,其中结构化的关系型数据模式由于其提出较早并且易于理解,因此占据了大部分的数据量。随着数据量的规模飞速增长,低质量的数据也随之而来,严重影响了数据的可用性,造成了多方面的不良后果,因此大数据可用性近年来得到了学术界、工业界的广泛研究。  数据一致性是数据可用性中一个重要的子性质,数据模型的不当设计、多数据源集成都有可能导致数据不一致的情况。条件函数依赖是一种基于语义规则的数据一致性表达机理,对于数据一致性违背的检测与修复有重要意义。本文针对条件函数依赖对数据一致性表达能力不足的缺点,提出了对条件函数依赖在语义上的扩展,增强了在规则约束上的表达能力,并根据已有理论中的查错与纠错策略,提出了相应的SQL查询及过程式的检测与修复方案。通过后续实验说明检测与修复算法具有较高的检错率与纠错率,具有实际可行性。  另外,本文提出的增强的条件函数依赖也能表述现有的条件函数依赖及扩展条件函数依赖规则,因此其具有良好的与已有理论的兼容性。同时还通过函数依赖形式化定义高质量数据,从而将高质量数据融入了条件函数依赖的理论体系,明确了高质量数据对数据错误检测与修复的指导意义。  数据完整性是数据可用性中另一个重要的子性质,人工录入失误、非空约束缺失、半结构化数据的属性识别都有可能导致数据完整性缺失。在数据完整性违背的检测与修复方面,采用改进的k-NN算法。在距离度量上,本文对数值、分类、文本三种类型的数据分别计算归一化的距离,从而保证元组间距离度量的合理性;在k值选取上,采用了对k进行均值化评估的方法,动态选取的k参数值。实验结果说明,该方法具有良好的填充效果。  为了在分布式的并行计算环境中对大数据进行数据错误的检测与修复处理,本文提出了在MapReduce编程框架上的算法,包括基于增强的条件函数依赖的数据一致性违背的检测与修复算法、基于主数据的MapJoin和ReduceJoin算法和基于k-NN的完整性违背检测与修复算法。随后设计并实现了一系列在实验说明算法的良好效果。
其他文献
本文首先主要介绍了下一代网络的发展状况及NGN的安全,然后分析了IPSec的安全能力,安全体系的构成、IPSec的工作方式以及IPSec在IP的实现方式。论述了IPSec的基本协议认证扩展
随着云计算的发展,虚拟集群技术应运而生,将分布式应用部署到虚拟集群已成为一种趋势。但是,虚拟化层的引入造成故障层次增多,系统整体故障率也随之增高,而且物理层故障造成的损失
SLA是用户和服务提供商所签署的正式合同,它明确规定了所期望的服务质量的级别,包括所期望的服务的行为和服务质量的参数。在验证SLA时需要测量各参数是否满足合同要求,通过S
随着汽车制造业的发展,国内外汽车市场竞争日益严峻,不仅仅是制造销售方面的竞争,更重要的是汽车服务业的竞争。汽车售后服务业中重要的配件管理越来越受到企业的重视。科学
随着计算机技术的提升,多核多处理器的计算机系统逐渐成为主流,同时运行的应用程序(或线程)数目的显著增加,这增加了系统的工作负载,需要提高系统主存储器的容量来满足大量程序运行
随着数据的飞速膨胀以及网络技术的迅猛发展,低成本、易管理、按需扩容等优势极有可能使云存储成为未来最主要的存储模式。但是目前云存储服务的应用范围还很有限,原因之一在于
随着云计算技术的不断发展,云存储以其低廉的价格和海量的存储空间得到越来越多中小企业的青睐。由于现有的云存储服务提供商提供的云存储接口与企业本地设备接口之间不统一,给
为了解决基于IPv4协议下网络的各种问题,诸如地址资源匮乏、路由表膨胀、缺乏对传输信息的加密和认证、缺乏Qo$支持等。IETF于1994年正式提出的Internet协议第六版(IPv6)作为
随着数据重要性的日益提升,数据保护显得尤为重要,而业务的全球化又使得备份窗口逐渐缩短,如何快速有效地对数据进行备份成为数据保护领域亟待解决的关键问题之一。同时,备份
随着计算机及网络的飞速发展,网络技术的应用日益普及,网络的开放性、共享性不断扩大,网络安全问题也逐渐突出。入侵检测技术是近十几年发展起来的一种网络安全技术,并迅速成为国