改进的ETL框架及其数据清洗方法研究

来源 :西华大学 | 被引量 : 0次 | 上传用户:freebernie
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化技术的普及与发展,各行各业积累了大量的数据,为了充分利用这些数据,数据挖掘技术广泛的应用于各个领域。数据仓库是数据挖掘的基础之一,ETL(Extract,Transformation and Loading)用来实现数据仓库中数据的抽取、清洗、转换与装载,决定了数据仓库的数据质量。由于数据源中存在数据重复、数据缺失、数据错误等问题,导致数据质量大大降低,而数据质量严重影响了数据挖掘的效率和分析决策的准确率,所以数据清洗作为提高数据质量的主要方法,是ETL中的重要内容。本文为了提高ETL在大数据环境下的灵活性和工作效率,改进了传统的ETL框架,提出了ECL-TL(Extract-Clean-Load-Transform-Load)框架,并对其中的数据清洗方法进行了系统研究,具体的研究内容如下:(1)针对传统的ETL框架,本文设计实现了ECL-TL框架。该框架通过引入中间库将数据清洗和数据转换完全分离,降低了各组件之间的耦合度。同时,提供了高效的数据清洗解决方案,封装了数据清洗相关的算法库、规则库和评估库。(2)在重复记录清洗方面,本文提出了一种基于等价关系的完全重复记录清洗方法,并针对数据量的大小,设计了两种实现方案。通过实验分析,表明了该方法具有较高的清洗效率。此外,本文提出了一种基于属性层次结构的相似重复记录检测方法,该方法将数据集按照属性的重要程度依次进行聚类,层层筛选相似记录,进而缩小数据集,提高了相似重复记录检测的准确率和效率。(3)在缺失值处理、异常数据处理、逻辑错误数据处理及不一致数据处理方面,本文提出了一种基于信息值质量评价的低质量数据清洗方法,该方法通过信息值质量评价方法筛选出低质量数据,然后将上述四类数据的处理统一归纳为低质量数据的清洗。本文实验验证了该方法的实用性和有效性。本文设计的ECL-TL框架应用于某公安派出所绩效考核系统中,实验表明本文所提ECL-TL框架具有良好的可靠性和稳定性。同时,数据清洗方法对于公安系统数据的清洗具有良好的效果。
其他文献
对滇东南的蒙自县草坝地区的气候条件分析评价后认为 ,该地区的气候从 2月中旬至 12月上旬间都能满足厚皮甜瓜的生长发育 ;厚皮甜瓜冬季栽培必须具有保温功能的设施条件 ;在
对国外价值观教育进行研究,有利于深化思想政治教育的比较研究,为我国社会主义价值观教育提供理论与实践镜鉴。国外价值观教育研究的目标是把握与追踪国外价值观教育的发展动
合理选择黑色精梳羊毛条和苎麻条,探讨长麻纺各工序的生产工艺,利用长麻纺纱设备生产苎麻/羊毛赛络纺色纺纱线,减少纱线毛羽,提高纱线强力。针对苎麻、羊毛2种纤维的性能差异
<正> 目前国内氮肥厂的合成氨生产,大多以煤气化法制取半水煤气作为工艺原料,其中含有占总硫量为5~10%的有机硫化合物。在这类工艺气体中,有机硫的组份与含量主要是硫氧化碳,
<正> 在中国的民族中,满、汉两个民族关系的发展有一定的特点和规律,在中国民族关系的发展过程中也具有一定的代表性。分析研究一下这两个民族关系的发展过程和规律,对把握和
在传统网络中,防御者必须不断增加复杂性的防御来保护网络系统免受攻击,而攻击者只需找到一个或多个可利用的漏洞就可以破坏系统。由于网络中的数据包携带信息容易被捕获分析,攻击者在执行攻击前更多的是侦查网络寻找漏洞,且可能随时跟踪信息流,用于全局分析,进而分析网络中的脆弱点。这种攻击成本低,效率高,成为了网络威胁。移动目标防御(Moving Target Defense,MTD)成为解决这些安全问题的一种
网络金融迅速发展,改变了客户的金融消费习惯。促使银行业在多维和多元的空间里去创造产品和服务,以更好地满足客户的服务需求,提升服务体验。其中,如何构建有效的渠道模式,
新型H5亚型禽流感病毒(AIV)曾有感染人类的报道,常引起临床重症,导致高死亡率,对人类造成了巨大威胁。2014年,我国四川省出现全球首例H5N6亚型AIV人类死亡病例。由于目前在禽
<正>中国化工学会会刊《储能科学与技术》自2012年9月创刊以来得到了广大热心中文期刊事业的读者、作者、审稿专家的大力支持,发表了一批在业内颇具影响力的文章。为加大对优
住房,作为人的一项基本生存需求,已被世界上大部分国家和地区作为人的一项基本权利予以确定。在经济发展水平较低时期,人们对住房的需求停留在实用的居住功效上;随着经济社会