论文部分内容阅读
文本聚类作为数据挖掘领域的主要分支之一,在许多领域占据了重要的地位。人们在处理数据时,经常遇到一些没有标签的数据,而人们往往需要了解这些数据间的关系,以便应用到实际情况中。为了解决这类问题,聚类算法应运而生。它是一种无监督的学习算法,通过主动学习数据内部的结构,分析出数据的类别属性,将相关的数据聚集到一起,不相关的数据分开,达到人们需要的结果。由于数据的表现形式多种多样,聚类的算法也是种类繁多的。在文本聚类中数据用向量空间模型表示,它把数据放在了一个向量空间中,通过距离的远近来判断数据间的相关性。然而,这类算法通过数据本身的维度来度量聚类的效果,忽略了数据内部的相关性,即本文中的特征的相关性。为此,本文研究了基于数据和特征两个维度的协同聚类算法,发现该算法能取得比单一维度聚类更好的聚类效果。随着信息技术的高速发展,海量数据、大数据的概念变得耳熟能详,面对如此庞大的数据,原来的串行算法已不能满足人们对算法速度和准确率的要求,于是人们逐渐把眼光转向并行计算。随着计算机硬件的发展,并行在多核的单机上也可以实现。然而这些并行模式大多是基于机器本身的,在面对规模越来越庞大的海量数据时,无法在单机上完成数据的并行计算。与此同时,Google提出的MapReduce并行模式,能在普通商用机器上部署集群,具有健壮性强,易伸缩的优点,受到广大并行计算研究者的欢迎。本文在研究协同聚类算法的过程中,采用MapReduce编程模式对协同聚类算法进行改进。在实验室中利用Hadoop搭建的MapReduce集群上运行并行协同聚类算法,该算法是基于最小化协同残差平方和的目标函数设计。文中通过实验的运算时间和加速比验证了算法的可扩展性。