论文部分内容阅读
在当今信息时代,信息的重要性与日俱增,人们期待着有价值的信息和知识,并从中发现规律。作为数据挖掘的重要工具,聚类分析已经成为了数据挖掘工作者和研究人员重点研究的对象,可以说聚类分析算法不仅仅在数据挖掘领域挖掘“价值”,其本身所具有的价值更是无可取代。谱聚类算法可以做到比一些传统的聚类算法聚类效果更好,速度更快,主要是因为其算法复杂度与数据维数无关,只与数据点的个数有关,这也决定了它在对高维数据的处理上拥有更优异的表现。同时,它的算法步骤简洁明了,容易实现,将数据集合转化为图,并利用数据矩阵存储数据的各类特征,并通过矩阵的特征分解来进行聚类。谱聚类算法由于继承了谱图分割的优越性,目标函数的最优结果倾向于全局最优而不是局部最优,使其在凹陷分布、密度不均、形状复杂的数据集上聚类效果更好,这也决定了谱聚类算法能够解决众多的实际应用问题,具有非常高的研究价值和远大的应用前景。本文首先引入信息熵的概念,提出了新的Rank排序算法,对拉普拉斯特征向量进行排序,使得谱聚类所使用的特征向量不再局限于以往按特征值大小来排列的前k个特征向量,提高了谱聚类算法在中小规模数据集上的聚类效果和质量。同时,在该Rank排序方法的基础上,针对谱聚类算法对大规模数据聚类效率和效果不佳的缺陷,本文做出了进一步的改进——结合信息论和统计学的知识,利用样本数据与原始数据的结构相关性,对海量、高维数据的特征向量排序的Rank算法进一步改进,提出了新的针对海量数据的ReRank算法。实验结果表明通过ReRank算法对大规模数据进行特征向量排序,使得改进后的谱聚类算法在大规模数据上的执行效率和聚类效果得到了大幅提高。