频繁项集挖掘算法的并行化研究

来源 :东南大学 | 被引量 : 3次 | 上传用户:HNLYLKT
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化的深入,大量数据产生并积累,数据越来越呈现出数量巨大、结构复杂、类型众多、富有价值等特点。在数据中发现有用的知识,挖掘有价值的信息一直是传统数据挖掘技术的主要工作。而频繁项集挖掘则是其中非常重要一个部分。面对海量数据,常规的硬件架构和软件环境已经难以满足人们的要求。针对这一问题,并行化技术越来越被重视和研究。传统的频繁项集挖掘算法中主要包括Apriori算法、Eclat算法和FP-growth算法。学术界也有许多对于这三种经典算法的改进研究。近年来,在大数据时代的环境下,如何将传统频繁项集算法并行化越来越成为研究热点。本文主要针对频繁项集挖掘算法中的FP-growth算法的并行化问题进行研究。分别探讨了两种基于GPU并行的FP-growth改进算法。首先,本文对频繁项集挖掘算法的并行化研究进行了探讨,再对本文中用的重要并行化技术GPU硬件架构和CUDA软件编程环境做了简单介绍。然后,为适应CUDA GPU并行计算框架,分析FP-growth算法挖掘频繁项集的主要过程,对算法中的建树和递归挖掘过程进行并行化改进。FPNR-growth算法将FP-tree的信息存储到FP-array中,FPBR-growth算法将FP-tree映射为二叉基数树BR-tree。而在FPBR-growth算法递归挖掘频繁项集的过程中,尝试采用TD-FP-growth算法思想,运用CUDA的动态并行技术优化递归效率。在算法的并行化设计与实现过程中,利用GPU与CPU的协同工作,各自发挥自身优势,充分利用GPU高效地并行计算能力,提升算法的性能。最后,在实验测试阶段,本文选取了四种数据特征不同的数据集对两种改进算法进行性能测试,并将实验结果与传统的串行FP-growth算法进行比较。实验表明,基于GPU并行的FP-growth算法在算法性能上得到了较大的提升。
其他文献
随着物联网行业的快速发展,特别是窄带物联网(NB-IoT)标准的确立,社会正步入万物互联的时代。车辆监控、智能抄表、智能追踪等领域都会涉及终端数据的传输和处理等问题,这些
本论文主要研究了过渡金属钯催化高烯丙基醇的碳-碳键选择性活化的烯丙基胺化反应以及中心手性金属络合物催化的溴代丙二酸酯与α,β-不饱和酰基化合物的不对称环丙烷化反应
无线传感器网络作为物联网中信息感知和采集的重要组成部分,已经在很大程度上影响和改变着我们的生活。在多数应用中,不仅要求采集数据的准确性,更需要精确的位置信息。因此,
大脑皮质高级认知功能的发挥依赖于两类重要的神经元:兴奋性投射神经元和抑制性中间神经元协同作用。这其中,尽管中间神经元的数量仅占皮质全部神经元的20%-30%,但却是神经环
农作物病害识别一直是图像识别领域的重要问题。引入新的学科理论,结合最新科技,为了探索最优图像的识别策略,图像识别领域开始关心多种方法综合使用。鉴于传统图像处理在作物病害应用中复杂且效率低下的手动设计特点,本文研究了深度学习算法在作物病害识别中的性能,主要做以下工作:(1)本文农作物病害数据集总计40772张图片包含10种作物,26种病害种类和标记有病害程度的样本共计59类,并研究了模型训练前的数据
非正交多址接入技术(Non-orthogonal Multiple Access,NOMA)可提高频谱利用率,增加接入用户数且与现有通信架构兼容,已成为5G的候选技术之一,其主要思想是不同用户同时共享同
本文主要设计了三种工作在60GHz毫米波的近场辐照系统,仿真分析了系统辐照区域的SAR值分布均匀度,对模型进行了优化改善,从而获得了更好的辐照均匀度。为了更高效的研究生物
随着计算机技术和网络技术的迅猛发展,人们对于多媒体的应用也越来越广泛,使得人们在视觉和听觉质量上的要求也不断提高。高效视频编码标准(High Efficiency Video Coding,HE
目的:总结伤寒论经方辨治失眠的规律和特点,总结失眠常见证型及方药,观察柴胡加龙骨牡蛎汤治疗老年原发性失眠(邪犯少阳型)的有效性及安全性。方法:理论研究通过研究《伤寒论》中关于失眠的29条条文,总结仲景辨治失眠的规律和特点。临床收集老年原发性失眠患者500例,剔除资料不全者,用Spss22.0进行统计,选用组间距离法,按照2-5类进行聚类,聚类分析出老年原发性失眠常见证型及方药。临床收集老年原发性失
众所周知,向量优化理论与应用研究中研究的热点之一是向量平衡问题稳定性分析(见文[1-15,17-26,29-53]),而稳定性分析的一个十分重要方面是连续性研究.首先借助集合极限的性