基于多又树和Spark的改进Apriori算法

来源 :信息技术 | 被引量 : 0次 | 上传用户：hhww541

【摘要】

：

文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最

【作者】

：

曹佳豪刘宇

【机构】

：

武汉邮电科学研究院,武汉,430000;烽火通信科技股份有限公司南京研发部,南京,210019

【出处】

：

信息技术

【发表日期】

：

2018年6期

【关键词】

：

data mining association rules Apriori multi-tree Spark

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文中基于Spark和多叉树对传统Apriori算法进行改进,将原始事物数据库转换为布尔矩阵,切割成多个分区数据库后交由Spark的各个Worker节点处理,以多叉树的形式存储中间结果,最后交由主节点进行合并,得到全局频繁项集.将基于Spark实现的Apriori算法同Ha doop环境下的Apriori算法进行性能对比,发现在数据量相同的情况下基于Spark的Apriori算法较基于Hadoop的Apriori算法执行时间减少了67％以上,采用多叉树存储中间结果后,算法执行时间在原来的基础上减少了44％以上.文中实验证明了Spark比Hadoop更适用于Apriori这种以迭代搜索方式执行的算法,且采用多叉树存储中间结果可有效地提高算法执行效率.“,”This paper presents an improved Apriori algorithm based on Spark framework and multi-tree.First, the original transaction database is converted to boolean martrix and divided subsets.Then partition multi-trees are generated by the worker nodes of Spark, finally, master node generates the global multi-tree by merging partition multi-trees.Compared with Hadoop framework, Spark decreases the algorithm executing time by more than 67％.By saving the temporary result into multi-tree, the time-consuming is at least decreased by 44％.The experiment indicates that Spark and multi-tree can effectively improve the performance of Apriori algorithm.

其他文献

郴衡220/11O/35 kV电磁环网合环条件计算

对郴州、衡阳电网220 kV/110kV/35 kV电磁环进行理论计算,确定郴衡电磁环能够合环操作.

期刊

电磁环网合环计算

文化力量的安全出口

期刊

文化力量

上海家化公司建成国家级技术中心

该文从挂篮荷载计算、施工流程、支座及临时固结施工、挂篮安装及试验、合拢段施工、模板制作安装、钢筋安装、混凝土的浇筑及养生、测量监控等方面人手,介绍了S226海滨大桥

期刊

上海国家级