论文部分内容阅读
云计算是2008年以来国际IT业热炒的概念,近两年来已开始在中国落地生根,是业界不可回避和逆转的一大趋势。我们可以把云计算看作是分布处理、并行处理以及网格计算的发展,其中并发、分布是云计算的关键,海量数据处理和海量计算是云计算的重头戏。但是云计算本身只是一种思维模式,要真正发挥它的魔力,除了硬件以外,更重要的是还得有软件的云计算平台支撑以及可以在平台上高效运行的并行化程序。海量数据处理和海量计算是数据挖掘领域的一个常见问题,许多传统数据挖掘算法往往只能适用小规模输入数据,当输入数据增大时,它们往往会因计算量的增大而速度减慢甚至无法运行,这无疑是许多传统挖掘算法的瓶颈。云计算则恰好擅长处理大规模数据和大规模计算,如果我们能够将传统数据挖掘算法并行化,并将之部署到云计算平台上运行,数据挖掘领域中的上述瓶颈问题就能迎刃而解。而能否有效借助云计算平台解决上述问题,关键在于能否合理地将相应的数据挖掘算法并行化。所以本论文首先主要从分布式文件系统和分布式编程模式两大方向分析了Google、Sector/Sphere和Hadoop三大云计算平台框架;然后从用户角度出发,综合考虑文本内容、人类遗忘性和话题流行度等因素,提出了一种基于网络日志的中文热点话题提取算法,并将其MapReduce化后部署到Hadoop云计算平台上运行,取得了良好的加速比效果,成功地提高了算法的运行速度和扩大了算法输入数据的规模;最后通过分析传统协同过滤算法、局部线性回归算法和朴素贝叶斯算法的详细流程、瓶颈问题和可并行化点,采取并行和串行相结合的方式,提出了将这几大算法MapReduce化的方法,不但证明了这些算法的可MapReduce化,而且在输入大批量数据的Hadoop集群实验中,取得了不错的加速比效果,比较成功地解决了这些算法计算量过大和计算时间过长的难题。本论文的研究为数据挖掘领域相关算法提供了可行的MapReduce化方案,实验结果证明了上述方案的切实有效性。