论文部分内容阅读
数据规模的爆炸性增长给传统计算机技术和串行算法带来挑战,同时也带来了新的发展机遇。“大数据”顺应而生。大数据使串行化关联规则算法需要重写,串行算法的并行化迫在眉睫,并行计算和大数据平台的应用是好的解决方案。关联规则用于发现信息与信息之间存在的关系,是重要的数据挖掘任务。关联规则传统算法Apriori算法和FP-Growth算法处理大数据时,单机处理发生内存溢出情况。使用Hadoop进行关联规则研究,降低编程难度,数据分片,因此Hadoop上关联规则并行算法研究是一个重要课题。针对此问题,本文进行了如下研究:(l)研究了 H-Apriori(Apriori algorithm based on Hadoop)算法并改进其算法。大数据环境下,Apriori串行算法难以处理海量数据,H-Apriori算法的中间过程产生大量值为1的键/值对,并且读取全部的事务,以致产生了大量的候选项并消耗了运算时间。本文采用删除非频繁项达到减少冗余数据的目的。重构数据库,优化读取事务步骤,提出了基于Hadoop的改进算法。有效约简了事务数据库,使用哈希树计数减少计数时间,提高了算法效率。(2)提出了一种基于Hadoop平台的负载均衡数据分割FP-Growth的改进算法。大数据环境下,FP-Growth串行算法难以处理海量数据,PFP(ParallelFP-Growth)难以处理一定量的数据。改进算法使用负载量估计、改进的均衡化分组方法进行均衡化分组,克服了 PFP数据量增大不能处理、负载不均衡的缺点。改进算法可以有效平衡集群各节点的负载,缩短整个集群的算法运行时间。搭建大数据Hadoop平台框架后,进行了对比实验。通过权威数据验证算法实效性。实验表明,改进算法能够更好的适应大数据,并且效率较高。