基于Hive的数据仓库变更数据更新算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:michael_lv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面临着大数据时代的到来,企业间的竞争已经不仅仅局限于业务层面的激烈摩擦,特别是在电子商务等新兴互联网领域,如何深层次的利用数据仓库以科学的方法进行企业战略决策成为当前业内的研究重点。在数据仓库中,随着企业业务线的发展变化,势必会面临着数据仓库中对变更数据进行更新的问题,在数据仓库中对数据进行更新的主要难点是缓慢变化维问题,这也是数据仓库建设和运行中面临的主要问题之一。基于以上背景,本文做了以下工作:1,本文对数据仓库变更数据更新问题的2个核心点,即抽取模式问题和缓慢变化维问题进行了分析,给出了每种方法所适合的业务需求环境,使得本文对数据仓库变更数据更新问题的分析具有适用性和灵活性,并给出了数据关联的一种优化方式。2,本文对传统的数据仓库变更数据更新算法进行分析后,发现传统算法有着严重的缺陷,例如:算法对数据的利用效率低、数据不能回溯、难以保留历史数据变化信息等等。并以此为依据给出了数据仓库变更数据更新问题的解决方向。3,在结合了以上2点的工作后,本文提出了基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法。该算法首先利用Hive外部表和Hive内部表对数据仓库ODS层中的Binlog日志数据进行以目标表名和时间为分区依据的筛选,从而得到了所需求的时间段的变更数据Binlog日志快照表,进而也就得到了变更数据快照表。然后该算法以之前得到的变更数据快照表为依据,利用Hive拉链表对目标表历史数据进行更新,利用了拉链表算法给予数据生命周期的特性再额外加上数据状态判断字段,这样既保证了对数据的历史变化信息的记录又可以高效的对最新数据进行查找,从而完美的解决了传统算法的不足。4,以电子商务团购领域数据为实验数据,对基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法的3个主要性能点,即数据使用效率、数据安全回溯、记录数据历史信息进行了实际测试,并根据测试结果详细的分析了本文提出的方法同传统的数据仓库变更数据更新方法相比较的优缺点。
其他文献
白光LED由于其节能、光效高、寿命长和反应快的特点被广泛的应用于照明领域。但是随着LED(Light Emitting Diode)芯片功率的不断提高和人们对高功率白光LED的需求,传统的荧光
随着通车里程和使用年限的不断增长,我国公路事业开始从快速建设阶段向养护管理阶段过渡。在这种形势下,研究沥青路面养护新技术,探索更科学的养护管理模式具有重要意义,路面的预
本论文是基于铁路信号微机监测系统的开发研究而展开的。论文的研究方向是在该分布式监测系统中,各采集机与站机之间采用可靠、高速、易配置的CAN通信网络,以及如何保证通信
随着城市规模的扩大和机动化社会的来临,日益突出的城市交通问题已经给城市方方面面的发展带来了负作用,交通运输规划与管理理论及实践的进一步研究成为目前学术界和工程界关注
学位
测绘卫星是地球观测信息系统的重要组成部分,是地理信息和测绘数据的一个重要的信息来源。通过测绘卫星获得的高分辨率、高精度的影像资料,可以满足各种比例尺度的地形图更新的
工程项目施工组织设计可以指导工程施工管理活动中的各种施工技术、工作计划和组织协调的统筹性文件,是工程施工项目管理与工程施工实践的完美结合,是对工程项目整个过程的构
本文回顾了改革开放以来我国道路客运业发展的轨迹,分析了目前道路客运企业面临的机遇与挑战,结合我国道路客运业的实际情况,研究道路客运公司化经营的理论、改造方法及实践操作
学位
学位
光学检测技术通常具有快速、灵敏、无损的特点,针对纺织工业生产与环境保护而开展的相关技术研究具有实际意义。本文的工作主要包含两部分内容:织针实时监测装置的研制和气溶