论文部分内容阅读
面临着大数据时代的到来,企业间的竞争已经不仅仅局限于业务层面的激烈摩擦,特别是在电子商务等新兴互联网领域,如何深层次的利用数据仓库以科学的方法进行企业战略决策成为当前业内的研究重点。在数据仓库中,随着企业业务线的发展变化,势必会面临着数据仓库中对变更数据进行更新的问题,在数据仓库中对数据进行更新的主要难点是缓慢变化维问题,这也是数据仓库建设和运行中面临的主要问题之一。基于以上背景,本文做了以下工作:1,本文对数据仓库变更数据更新问题的2个核心点,即抽取模式问题和缓慢变化维问题进行了分析,给出了每种方法所适合的业务需求环境,使得本文对数据仓库变更数据更新问题的分析具有适用性和灵活性,并给出了数据关联的一种优化方式。2,本文对传统的数据仓库变更数据更新算法进行分析后,发现传统算法有着严重的缺陷,例如:算法对数据的利用效率低、数据不能回溯、难以保留历史数据变化信息等等。并以此为依据给出了数据仓库变更数据更新问题的解决方向。3,在结合了以上2点的工作后,本文提出了基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法。该算法首先利用Hive外部表和Hive内部表对数据仓库ODS层中的Binlog日志数据进行以目标表名和时间为分区依据的筛选,从而得到了所需求的时间段的变更数据Binlog日志快照表,进而也就得到了变更数据快照表。然后该算法以之前得到的变更数据快照表为依据,利用Hive拉链表对目标表历史数据进行更新,利用了拉链表算法给予数据生命周期的特性再额外加上数据状态判断字段,这样既保证了对数据的历史变化信息的记录又可以高效的对最新数据进行查找,从而完美的解决了传统算法的不足。4,以电子商务团购领域数据为实验数据,对基于Hive的内外表变化筛选日志数据配合拉链表数据更新的算法的3个主要性能点,即数据使用效率、数据安全回溯、记录数据历史信息进行了实际测试,并根据测试结果详细的分析了本文提出的方法同传统的数据仓库变更数据更新方法相比较的优缺点。