论文部分内容阅读
随着互联网的发展,各种网络应用产生的大量数据将我们带入大数据时代,为解决传统数据挖掘方法不能适应数据爆炸性增长的问题,人们不断研究新的方法,以从数据中获取有价值信息。作为一个开源的分布式框架,Hadoop被越来越多的商业应用所采用,并在不断地发展扩充,具有很高的研究和商用价值。借助其MapReduce编程模型,用户可以很方便地将自己开发的数据处理算法进行并行化,实现从只能处理小数据集的单机环境到可以处理GB级海量数据的飞跃,为具有并行特性的聚类挖掘方法提供了一个很好的扩展思路。为了提高Hadoop集群的稳定性,降低大量的节点失效对计算性能造成的影响,本文提出一种将虚拟机技术与Hadoop技术相结合的思路,以虚拟机为节点构造分布式的Hadoop系统。利用虚拟机可以集中管理、快速部署等优点,可以在虚拟机节点失效的时候快速启动新的节点继续挖掘任务;并能根据任务量的大小动态地调整虚拟机节点的数量,在避免计算资源的浪费的同时尽可能快地完成挖掘任务。本文在研究了各种数据挖掘算法的同时进行了Hadoop分布式框架的剖析,为能够在分布式系统上实现准确而高效的分布式计算,将k-means聚类算法进行了改进,通过属性加权来提高结果的正确分类率,同时提出一种基于数据密度的初始聚类中心选择算法,能够识别高密度典型数据,消除随机初始聚类中心对k-means计算稳定性的影响。对改进算法进行有效性测试以后,提出了并行化实现的方法。最后在以VMWare虚拟机为计算节点的Hadoop分布式系统下,部署了该并行化的MapReduce程序,实现了校园网上网行为的聚类分析,根据挖掘结果对校园网用户的收费系统提出了改进建议。这也为拥有或即将拥有自己的虚拟化平台的高校,提供在该平台上部署大数据应用,实现数据分析提供了一个参考。