论文部分内容阅读
随着社会的迅速发展和科技的快速进步,计算机技术已经渗透到人们生活中的方方面面中去,这也导致了大量数据的产生。在这一条件和环境下,如何有效利用数据和安全存储数据的问题也逐渐被越来越多的人们提出和思考。通过一些已有的研究成果,人们发现数据的背后往往隐藏了大量的有用知识,而为了能够探索出这些有用信息,数据挖掘技术诞生了。数据挖掘技术能够通过一定的方式从大量数据中发现一些有意义的数据规律,并进一步从这些规律中提取出现实存在的客观现象。在数据挖掘所涵盖的各项技术和算法中,Apriori算法是挖掘关联规则所需使用的最基本的算法,它利用逐层迭代的方式,用频繁k项集生成频繁k+1项集,直至没有新的频繁项集可以产生才结束算法。Apriori算法能够准确的挖掘出事物数据库中相关联的项,例如超市购物篮中总是被顾客一起购买的商品、通信运营商客户总是一起购买的产品套餐、医院患者总是一起进行的体检项目和一起服用的药物等。虽然Apriori算法针对关联规则挖掘有着重大的意义,但是随着数据量的爆炸式增长,算法在实际应用中还是存在着效率较低的缺点,为了解决这一问题,人们希望可以通过对算法进行一定改进,避免或者减少Apriori算法过程中的一些不必要工作,从而达到提高算法效率的目的。但是由于现在单个计算机在一些方面还是存在着性能的不足、不能较好处理大规模数据,而需要大数据处理的问题又越来越多,于是专门进行大数据处理的工具云计算产生了。云计算的分布式平台可以为大数据提供强有力的计算能力和存储空间,又可以使一些原本非常复杂耗时的串行程序,可以通过并行方式运行得更加快速安全。随着云计算技术的不断成熟,人们越来越倾向于将大数据处理相关应用移植到云计算平台中运行,使云计算和相关算法能够结合起来,一起发挥它们的最大优势。本文介绍了数据挖掘和云计算的相关背景知识,详细分析了Apriori算法的工作流程和特点,提出了一种可以将Apriori算法移植到Hadoop平台的算法改进办法,同时也举例说明并验证了改进算法的可行性,为以后其他研究人员对Apriori算法和Hadoop平台的结合改进提供了帮助和参考。