分布式大数据一致性管理关键技术研究

来源 :西北工业大学 | 被引量 : 0次 | 上传用户:JK0803_zhangke
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
新技术的不断发展和数据的快速增长加速了大数据时代的到来。相关统计显示,如今人们每天产生的数据量已经达到了EB级,而且这个规模呈不断增加的趋势。针对这么庞大的数据规模,传统的数据管理技术难以对其进行分析和处理,有必要通过大规模的服务器集群进行并行处理。大数据不仅仅意味着数据规模大,更意味着其中蕴含的数据价值很大,如对企业大数据的充分利用和挖掘会对企业的决策和未来发展产生重要影响。要想充分发挥大数据的价值,通常对其数据质量有着一定的要求,高质量是大数据的效能充分发挥的基础和前提。大数据的质量问题包括一致性、精确性等在内的多个特性,其中一致性是大数据质量问题的重要内容之一。在数据存在不一致性的情况下,为找出数据中隐含的约束规则,有必要进行诸如函数依赖等约束规则的发现。为提高数据质量,有必要进行不一致性检测,从中发现违反约束规则的不一致性数据。本文主要针对大数据的一致性问题展开相关的研究,主要从大数据约束规则发现、不一致性检测以及数据修复几个方面着手,通过对大数据一致性问题的研究,从中从中发现约束规则和找出违反函数依赖的数据,为大数据的修复提供依据,基于统计学习理论研究了数据清洗问题,给出了数据自动清洗方法。本文的主要研究内容和创新点如下:(1)分布式大数据函数依赖发现方法。指出函数依赖发现问题面临的挑战和现有函数依赖发现方法的不足,提出了适用于分布式水平切分和垂直切分大数据的函数依赖发现方法。制定了函数依赖发现过程中候选函数依赖搜索策略,给出了发现问题的响应时间代价模型,将负载分配问题划归为整数规划问题并给出近似最优解。定义了适合分布式环境函数依赖发现的剪枝策略,基于广播对发现的局部结果进行消息传递和剪枝,从而提升发现效率。基于真实和人工数据集的实验结果表明,提出的函数依赖发现方法在节点扩展性、数据扩展性和属性个数扩展性方面表现良好。(2)分布式大数据近似函数依赖发现方法。指出近似函数依赖的应用价值、近似函数依赖发现面临的挑战和现有研究现状和不足,提出了一种适用于分布式水平切分大数据的近似函数依赖并行发现方法。制定了候选近似函数依赖搜索策略。为提高近似函数依赖发现效率,给出了近似函数依赖集合剪枝策略,基于阶段发现结果进行剪枝,对剪枝效果进行了定量分析。由于任务分配问题为NP-hard问题,给出了近似最优的任务分配方法。实验结果表明,提出的近似函数依赖发现方法与集中式方法相比在数据扩展性和节点扩展性方面优势明显。(3)分布式大数据不一致性检测方法。指出现有的检测方法仅适用于集中式数据、效率较低等问题。在大数据背景下,为提高函数依赖不一致性检测效率,提出了单个函数依赖和多个函数依赖不一致性并行检测算法。通过散列函数进行数据重分布,确保检测结果的正确性和算法的并行执行。由于检测问题为NP-hard问题,给出近似最优解。针对多个函数依赖不一致性检测问题,根据函数依赖的结构特征进行分组和批量并行检测,研究了分组的最优化问题。提出了一种基于等价类的普适性分布式并行多函数依赖冲突检测方法,给出了检测的响应时间代价模型和任务分配的近似最优算法。将动态均衡负载问题划归为二次规划问题,并采用拉格朗日算子法得到近似最优解。实验结果表明提出的检测方法在数据规模、节点个数、函数依赖个数方面扩展性良好,而且在减少响应时间方面优势明显。(4)基于统计学习的自动数据清洗方法。分析了现有数据清洗方法的不足和问题的挑战,提出了一种基于统计学习和概率推理的无监督自动数据清洗方法,适用于缺乏现成的数据质量模式/规则同时无需人工介入情况下的大规模数据清洗。从数据或者数据采样当中学习数据模型并转换成一阶谓词逻辑规则,对一阶谓词逻辑规则权重进行了确定,将一阶谓词逻辑规则转换成DeepDive推理规则并将于DeepDive平台进行推理,结果用于数据修复。实验结果表明,本文提出的方法与已有贝叶斯方法相比在精确度、召回率和F-值等方面明显占优。
其他文献
运用多变量形态度量学方法,研究雅砻江5种(亚种)裂腹鱼类——裸裂尻鱼属的软刺裸裂尻鱼、大渡河软刺裸裂尻鱼和高原裸裂尻鱼以及裂腹鱼属的短须裂腹鱼和长丝裂腹鱼之间的形态
土石坝地震反应分析中,需要对有限网格的边界条件进行处理,以反应实际地基在空间上的无限性。分别采用黏性边界和刚性边界,对土石坝进行了动力分析。结果表明:随着坝高增加,
个人信贷的发展,WTO的临近,建立个人信用制度已迫在眉睫.但在我国建立个人信用制度存在许多现实的困难.这既因为体制上的缺陷.社会环境的信用缺失,而且也因为一些技术方面的
本文通过对一代儒宗梁漱溟先生文化思想的梳理,认为其在近代中国秩序与意义双重危机笼罩下所建构起来的文化哲学的聚焦点就在于:中国之历史出路与人生之价值意义的统一问题。
期刊
汉语的句型研究是伴随着汉语语法学的诞生而产生的。由于语言学者在如何确立句型、确立怎样的句型时 ,目的、方法不一致 ,确定句型的原则也就不完全相同 ,因而得出的句型系统
目的探讨我国肝移植治疗原发性肝癌的手术适应证及效果。方法回顾性分析我院1999年2月至2004年连续施行的170例原位肝移植手术,对其中原发性肝癌62例的临床分期,手术方式及术
<正> 一、科学哲学在现代哲学中的地位把科学哲学看作一个学科还是看作哲学思潮或哲学运动,那是不同的。从历史上看“科学哲学”包括这两种情况。说它是学科时,如象法哲学、
目的:探讨基层医院在中孕早期进行常规筛查发现前腹壁畸形联合三维重建确诊5例的临床价值。方法:2012年4月~2013年4月间在我院中孕早期即13-18孕周的产前超声常规筛查联合三
尽管中国古代思想家对法律与道德的关系有过争论,但它是在接受了法律与道德存在不言而喻的联系的前提下,更注重两者的社会功能和在社会生活中的地位;而在欧美法哲学家视野中,
矿井通风安全管理对矿企安全运行非常重要,我国矿井通风安全管理的现状中存在技术不先进,计算机辅助决策的应用不够全面等问题。因此提高我国矿企的矿井通风安全管理迫在眉睫