论文部分内容阅读
随着互联网技术的飞速发展,微博、微信、社交网络等交互式应用的涌现,商业产生的数据呈爆炸式增长。商家急需从海量的数据中挖掘潜在的有用的信息,从而进行研究与决策。面对如此庞大的数据,传统的数据分析工具已经不再适用。聚类分析是数据挖掘的重要技术之一,它是根据某种距离度量方法,将对象集合分成多个类簇的过程,作为一种非监督学习方法,其最初的类别是不确定的。传统单机下的聚类算法,无论是时间复杂度,还是运行效率都无法满足大数据处理的要求。然而,云计算的发展为大数据的聚类分析提供了新的研究方向。本文基于Hadoop云计算平台,通过对K-Medoids聚类算法进行优化与实现,能够对大数据进行准确、高效的聚类分析。本文主要工作如下:(1)研究了传统的K-Medoids聚类算法,并针对其需要指定聚类数目和初始中心点的缺点,利用Canopy聚类算法对它进行优化,进而提出了Canopy-K-Medoids聚类算法;(2)通过对Canopy算法进行分析,发现其聚类中心点和区域半径T1、T2的选择具有随机性,所以用最大最小距离算法对Canopy-K-Medoids算法进行优化,从而又形成一种新算法,将其称为HCK-Medoids聚类算法;(3)对上述三种算法均设计了基于MapReduce的并行化算法,并部署到Hadoop平台上进行测试,分别在聚类准确性、加速比等方面进行了比较,从而验证了的优化后的算法更能高效和准确地处理海量数据;将HCK-Medoids算法应用到客户细分中,通过与K-Means算法进行比较,验证了HCK-Medoids算法能够更加准确地将客户进行细分。