基于Spark的FP-Growth算法的研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户:popularmp3007008
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的数据量高速增长,人们越来越热衷于从海量数据中发现有价值的信息。数据挖掘技术越来越成熟,数据挖掘理论与算法也日臻完善。随着数据量爆炸式的增长,算法的运行对计算机内存的要求越来越高,FP-Growth算法本身也存在着算法逻辑复杂和需要多次迭代等缺点,难以完成对海量数据的挖掘任务,这就需要开发全新的算法或者对传统的算法进行改进。本文基于Spark并行计算框架,从存储和分组两个方面提出了FP-Growth算法的改进策略,有效地提高了算法的性能。主要工作如下:第一,对存储策略的改进。Spark是基于内存的并行计算框架,将产生的中间结果存储于RDD中。面对海量数据,RDD不能满足存储所有的中间结果时,会释放暂时不需要的RDD,需要时再进行重新计算。本文结合Spark自身的特点,提出一种对中间计算结果缓存的方法。针对产生条件模式基时需要对分区后的事务集重复计算的问题,将分区后的事务集进行缓存;针对产生关联规则时需要对频繁项集重复计算的问题,将每一棵FP-Tree进行挖掘时产生的频繁项集进行缓存。通过对上述中间结果的缓存,有效地避免了重复计算带来的额外开销。第二,对分组方式的改进。在并行计算中,每个节点的负载量决定了节点的计算时间,整体的运行时间取决于最大负载量的节点。基于各个计算节点均衡负载的思想,提出一种分组的改进策略。该策略将降序排列后的频繁1-项集中项的位置作为负载量的权重指标,进行均衡分组,在一定程度上使得每个节点的负载量达到平衡,解决了因为各节点负载量不同而延缓整体运行时间的问题,减少了整体的运行时间,提高了算法效率。最后,本文基于Spark实现了改进后的算法,实验结果表明,提出的改进策略有效提高了FP-Growth算法的运行速度。
其他文献
采油树是油气生产的重要井口设备,其性能的优劣关系到油气井能否安全、高效地生产。平板闸阀是整体式采油树的关键部件,闸阀性能的好坏关键在于其密封性能,密封元件的优劣直
<正>~~
期刊
针对马钢1000 m3高炉的工艺情况,从优化全干法布袋除尘工艺和高炉顶温操作工艺方面进行分析与探讨,解决因为煤气介质达标难题造成影响的TRT机组开机率的透平机转子叶片积灰问题
本文通过对当地半风化长石类矿物原料的合理开采、精细加工及综合治理生产实践,针对矿物原料在陶瓷行业中的应用、加工工艺的选择和生态环境治理方面。探索了矿物原料可持续发
基于交际术语学理论,本文将研究词典学中文术语的规范使用问题,以期为词典学中文术语的规范工作提供一些参考。从交际的视角看,术语不仅是专业概念的表征,而且是沟通交流的语
通过在坯料中引入羧甲基淀粉钠(CMS—Na),大大改善了骨质瓷泥料的可塑性和延展性,提高了骨质瓷阳模成形出坯率,泥料性能完全满足阳模成形要求。
针对环缝洗涤塔上段排水系统在生产运行过程中存在的问题,分析原因并对其进行改造,改善了洗涤塔排水沟中经常窜入大量煤气的现象,杜绝了上段锥体内壁被高炉煤气冲刷至漏的现象,为
近年来,随着广东陶瓷企业纷纷“北上”的发展势头,高岭土的开采量越来越大,价格持续上涨,高岭土税收成为藤县地方税收新的增长点。2008年至2010年分别人库高岭土税收395万元、595
在本文中,我们首先证明量子态的最优Lewenstein-Sanpera分解中的参数可以作为一个纠缠度。S.Karnas与M.Lewenstein于2001年证明了该结论。在这里我们给出了一个更简化的证明