论文部分内容阅读
目的随着计算机技术和互联网的飞速发展,Web2.0的成熟与广泛应用,数据呈现爆炸式增长,传统的数据挖掘算法在处理海量数据时效率低下,云计算的出现为其改进带来了新的方式。云计算通过集群威力,实现了对海量数据的可靠存储和高速计算。Hadoop作为一款比较成熟的开源云计算框架,以其高效、可扩展、低成本等优点在数据挖掘的相关领域得到了广泛应用。基于此,本文将Hadoop与典型的数据挖掘系统进行整合,并选择了新的数据挖掘系统的算法模块部分中应用较为广泛的Apriori算法进行改进,以提高其在处理海量数据时的效率。方法本文采用的研究方法包括:文献研究法,结构化方法,实例分析法和对比分析法。文献研究法可以了解相关研究的现状,还为本文的研究提供理论参考;结构化方法是系统分析常用的方法,对基于Hadoop的云数据挖掘系统架构的分析具有指导意义;通过实例分析法阐述了传统Apriori算法的执行流程并论证了改进算法的可行性;通过对比分析法,分析了改进算法的优势。结果(1)结合典型的数据挖掘系统架构,将其与Hadoop进行整合,提出了基于Hadoop的数据挖掘系统架构,并对各个功能模块进行了简要阐述。(2)在对Apriori算法进行了详细阐述的基础上,针对其在处理海量数据时存在的瓶颈,利用MapReduce编程模式,本文提出了基于数据库划分的并行化改进的思想。通过对改进算法的详细阐述和设计,结合实例论证了改进算法的可行性,并对改进算法进行了分析。(3)通过实例分析,得到改进算法具有更高的效率,降低了时间复杂度和空间复杂度。结论(1)云计算给数据挖掘算法的改进带来了新的方式,云数据挖掘将成为未来的研究趋势。(2)本文的研究具有一定的意义,它为数据挖掘其它算法的改进提供了参考。越来越多的算法将被并行化移植到Hadoop云数据挖掘平台。