基于Hadoop平台的一种Apriori算法改进方法

被引量 : 0次 | 上传用户:woyaoqian115
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会的迅速发展和科技的快速进步,计算机技术已经渗透到人们生活中的方方面面中去,这也导致了大量数据的产生。在这一条件和环境下,如何有效利用数据和安全存储数据的问题也逐渐被越来越多的人们提出和思考。通过一些已有的研究成果,人们发现数据的背后往往隐藏了大量的有用知识,而为了能够探索出这些有用信息,数据挖掘技术诞生了。数据挖掘技术能够通过一定的方式从大量数据中发现一些有意义的数据规律,并进一步从这些规律中提取出现实存在的客观现象。在数据挖掘所涵盖的各项技术和算法中,Apriori算法是挖掘关联规则所需使用的最基本的算法,它利用逐层迭代的方式,用频繁k项集生成频繁k+1项集,直至没有新的频繁项集可以产生才结束算法。Apriori算法能够准确的挖掘出事物数据库中相关联的项,例如超市购物篮中总是被顾客一起购买的商品、通信运营商客户总是一起购买的产品套餐、医院患者总是一起进行的体检项目和一起服用的药物等。虽然Apriori算法针对关联规则挖掘有着重大的意义,但是随着数据量的爆炸式增长,算法在实际应用中还是存在着效率较低的缺点,为了解决这一问题,人们希望可以通过对算法进行一定改进,避免或者减少Apriori算法过程中的一些不必要工作,从而达到提高算法效率的目的。但是由于现在单个计算机在一些方面还是存在着性能的不足、不能较好处理大规模数据,而需要大数据处理的问题又越来越多,于是专门进行大数据处理的工具云计算产生了。云计算的分布式平台可以为大数据提供强有力的计算能力和存储空间,又可以使一些原本非常复杂耗时的串行程序,可以通过并行方式运行得更加快速安全。随着云计算技术的不断成熟,人们越来越倾向于将大数据处理相关应用移植到云计算平台中运行,使云计算和相关算法能够结合起来,一起发挥它们的最大优势。本文介绍了数据挖掘和云计算的相关背景知识,详细分析了Apriori算法的工作流程和特点,提出了一种可以将Apriori算法移植到Hadoop平台的算法改进办法,同时也举例说明并验证了改进算法的可行性,为以后其他研究人员对Apriori算法和Hadoop平台的结合改进提供了帮助和参考。
其他文献
<正>一、设计理念体育与健康课程改革在教育思想、教育方式、教学内容、教学评价等方面发生了深刻的变化,在注重学生主体的基础上,强调学生的运动体验,强调学生自主、探究学
选择黄土高原气候交错带的典型地段,将封育年限作为一维资源状态,以物种的重要值作为资源位上的表征特征,对6个封育年限内的油松群落乔木层、灌木层的主要种群生态位宽度和生
物联网是一项新兴的技术,是一个将各种信息传感设备(如RFID、红外感应器、全球定位系统、通信装置等)与互联网结合起来而形成的巨大网络。物联网的出现正在改变着社会的生产
语用学是20世纪语言学研究中新兴的一门学科,它研究在特定情景中的特定话语,特别是研究在不同的语言交际环境下如何理解语言和运用语言。本文就语用学理论在大学英语教学中的
淡水是人类社会赖以生存的重要资源,然而,我国淡水资源存在总量多,人均量少、地氏分布不均、淡水资源污染严重等问题。因此,对淡水资源的保护迫在眉捷,必须采取多种措施推进
本文以对美国烟草经济政策的解读为出发点,分别对自由种植阶段、配额种植阶段和合同种植阶段的烟草经济政策进行了简单的探索分析,并以此为基础提出对促进我国烟草现代化建设
本文以天津财经大学学生社团和招生工作的实际情况为案例,对高校中招生工作与学生社团之间的联系进行了研究,提出了自己的观点。作者提出学生个人素质与学生社团的质量有着密
本文以制度经济学理论为基础,由路径依赖的视角入手,分析了我国商业银行转型的初始条件;从经济、金融和制度等层面,探讨了我国商业银行转型的外部动因。同时,以避免出现转型
企业博客以及由其衍生的微博客作为一种时尚的新兴媒体力量,它的网络营销优势正越来越多地受到企业的青睐。对于以中小型企业为主的我国服装产业,如何利用企业博客、微博客来