基于Spark的可定义规则数据清洗系统的设计与实现

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:okoldtiger
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术与其他科学技术的不断进步与飞速发展,各个不同的领域如今都无时无刻不在以惊人的速度产生着巨量的数据。如何利用这些数据和信息,挖掘更多潜在的财富,创造更多的价值,是当今计算机和数学领域研究的重大问题之一。也就是在这样的背景之下,“大数据”的概念也应运而生。借助数据挖掘、机器学习和数据可视化等技术,探究趋势并预测未来,成了大数据技术的精髓所在。然而,为了保证各种数据分析的产出的准确性,对数据的质量的控制是一个至关重要、不可忽视的环节。因此,在大数据技术的实际应用中,一半以上的时间都会花在数据清洗上。另一方面,随着数据规模的扩大,以及数据源和数据类型多样性的出现,如何设计一套高效率、高通用性的数据清洗系统,也是我们需要探究的关键问题。本文基于专用于海量数据处理的分布式计算引擎Spark,设计并实现了一套极具特色的数据清洗系统。该系统通过业务组件封装数据清洗过程中的特定业务逻辑,并将其作为整个数据清洗流程的连接单位。为了解决数据清洗业务组件之间的数据传递问题,本文对Spark原生的应用程序提交方式进行了深入分析,并在此基础上进行改进,从而实现了基于全局SparkContext与Spark内置解释器对象的业务处理机制,以支持交互式数据清洗及全局数据共享。为了与该业务处理机制高度契合,设计并实现了一种解释器结构,并在此结构的基础之上,定义了以字符串数组封装代码为核心的业务组件结构规范。基于上述结构规范,实现了一系列业务组件,并提供了业务组件的扩展接口。该系统对业务组件的处理支持两种方式,一是编辑参数并依次单步提交执行,二是编辑参数后拖放控件并组合成有向无环图形式的业务规则示意图,再交由系统处理。为了保证业务规则示意图处理的鲁棒性和正确性,本文基于深度优先遍历的思想,以检查系统使用者定义的业务规则示意图中是否含有导致业务流程进入死循环的环路结构。此外,还提出了“反向广度优先遍历”的方法,用于决策业务组件的执行顺序,并对业务流程的实际执行效率提出了一种基于Spark原生缓存技术的优化方法。实验证明,本系统在一定程度上解决了数据清洗的性能、可扩展性、可伸缩性和易用性问题,具有较高的实际应用价值。
其他文献
据公安部交管局统计数据显示,近年来,我国机动车保有量迅速增加,截至2011年6月底,全国机动车总保有量为2.17亿辆,其中摩托车保有量为1.02亿辆。到2011年底,全国机动车保有量达到2.25亿
通过对萨特存在主义基本内容和存在主义文学基本特征的了解,分析米兰·昆德拉的代表作——《不能承受的生命之轻》,探讨了米兰·昆德拉作品中对萨特存在主义的哲学继承,揭示
为研究不同浓度纳米氧化铁对番茄生长的影响,采用不同浓度纳米氧化铁对番茄处理后,对番茄植株生物量、抗氧化系统、膜质过氧化以及可溶性糖含量等进行测定。结果表明,不同浓
目的探析足月新生儿急性呼吸窘迫综合征(ARDS)的临床治疗方法以及预后,旨在提高对疾病的认知,从而及早发现并给予有效治疗。方法选取30例符合ARDS诊断标准的足月新生儿作为研
MCS-51单片机在温度检测与控制系统中的应用刘玫,张卫宁前言温度检测与控制是工业控制中的一个重要方面。在冶金、化工、食品和机械方面都要用到不同类型的温度炉。温度炉温度的检测
本文综合国内外文献,简要介绍了野生稻抗病虫基因发掘、定位、克隆及育种应用研究的进展,讨论了野生稻优异抗病虫基因在水稻育种中的应用前景。
近年来,通信行业收入增速放缓,资源日益紧张,同时,企业内部各责任主体的资源权责利不清晰,造成资源低效、无效使用,盈利能力下降,企业可持续发展的能力受到威胁,为此中国移动
数学核心素养是中学数学课程目标的重要组成部分,是数学教学中潜在的目标.笔者以解一道相似三角形几何问题得到的两个"矛盾"结果为载体,通过证明"矛盾"结果的"同一",来探究一
运用GenieII实时荧光等温扩增检测系统,以LAMP法荧光检测为基础,建立了对病毒性出血性败血症病毒进行荧光实时反转录环介导等温扩增检测方法。根据对VHSV病毒N基因序列的分析