论文部分内容阅读
聚类分析是数据挖掘、模式识别等方向的重要研究内容之一,已被广泛用于数据压缩、文本聚类、信息检索、图像分割等领域。近年来,网上电子文档的数量以指数级的速度增长,这使得文本聚类在信息检索和信息管理等方面变得越来越重要。文本数据具有高维、稀疏等特点,这使得许多聚类算法不能直接用于文本聚类;另外,文本集规模的海量性对聚类算法的运行效率也提出了很高的要求。向量空间模型是常用的文本表示方法之一,由于文本的高维、稀疏等特点,本文将非负矩阵分解算法(Non-negative Matrix Factorization,简称NMF)应用到文本聚类中去。非负矩阵分解算法是一种比较新的特征抽取方法,由于对分解结果加上了非负的限制,基于非负矩阵分解抽取的特征向量更能反映样本的局部特征,并且它的分解结果具有很高的可解释性。本文首先介绍了非负矩阵分解的基本思想和基本算法,由于非负矩阵分解算法收敛速度较慢、容易收敛到较差的局部最优解,因此本文对NMF算法进行了改进,使用模糊C-均值(Fuzzy C-Means,简称FCM)算法对其进行初始化。其次,由于文本集的规模很大,对聚类算法的要求就更为严格,标准的k-means算法需要在每一次迭代中计算每一个样本点到所有聚类中心的距离,这样浪费了很多计算时间,尤其是数据量特别大时,针对此问题本文提出了改进的k-means算法。由于很多聚类算法在聚类之前都需要人为的输入聚类数目,而具体的聚类数目事先并不知道,针对该问题本文提出了FGClus聚类算法。通过实验验证了改进的k-means算法和提出的FGClus算法的有效性。最后,本文将NMF算法和改进的NMF算法与k-means算法、改进的k-means算法和提出来的FGClus算法进行集成,通过实验证明使用NMF与各聚类算法集成得到的聚类结果都优于直接使用聚类算法对高维的稀疏文本向量进行聚类得到的结果,而且通过对NMF算法进行改进,不仅能产生更加准确的聚类结果,而且提高了算法的运行效率。