论文部分内容阅读
聚类分析技术是数据挖掘技术领域中的重要组成部分,在多个领域中有着广泛的应用。随着数据的不断增长,如何从海量数据中高效地获取信息成为聚类算法如今研究的重点。传统静态聚类算法无法在聚类前获取全部数据,导致聚类时效性较差,在大数据环境下适用性不强,因此,增量式聚类算法成为了一个研究热点。当新增数据到来时,将新增数据和原有数据一起重新聚类需要花费大量时间和资源,本文从处理动态数据集的角度出发进行研究,结合静态聚类算法的优点,利用已有的聚类模型处理增量数据,使聚类算法能够更好更快地处理动态数据集。主要研究工作如下:(1)针对单点处理式增量K-Means算法的设计及其初始中心点选择的相关研究。首先,参考K近邻的思想,设计了一种增量方法,根据新增数据的k个近邻来判断新增数据的归属,一个未知类别的数据点应该与其近邻中数据点所属的多数类别保持一致。随着新增数据点不断增长,除了考虑将新增点划分到某个已知簇中或生成一个新簇,还应该考虑增量数据的加入对原始聚类模型的影响,在新增数据达到一定数量时,使用类簇的相关特征来判断是否对簇进行合并或分裂操作。当新簇包含的样本点远小于其他类簇时作为噪声处理。其次,由于使用K-Means算法对初始数据进行聚类时质心的选择对初始聚类模型的影响较大,本文将初始中心点选择在数据密集区域的凸包边界上,能够得到更好的初始聚类模型。该增量算法不仅实现了动态数据的增量处理,能够利用初始聚类结果实现数据模型的实时更新,也提高了聚类精度。(2)针对批处理增量模糊聚类算法的设计及其如何处理稀疏高维数据的相关研究。模糊c均值聚类算法简单,且迭代速度快,但只能处理低维小规模数据,利用该算法的优点,本文采用分块和抽样的方式进行增量式扩展,提出了适合处理稀疏高维大规模数据的改进增量模糊聚类算法spHF(c+l)M、oHF(c+l)M和rseHF(c+l)M算法。spHF(c+l)M算法和oHF(c+l)M算法将数据进行分块处理,rseHF(c+l)M算法对数据进行抽样处理。在每个分块或抽样数据块上运行模糊c均值算法时,首先加入样本权值以提高聚类效果,然后使用改进的考虑质心之间相互影响的目标函数进行迭代提高聚类精度,接着在每一步迭代中将质心标准化,使用余弦距离计算相似度,使算法更加适合稀疏高维数据集。在计算机内存有限的情况下,这种增量模式下的聚类算法能够实现超大规模稀疏高维文本数据集的准确高效处理。实验结果显示,本文三种改进增量聚类算法在大规模英文文本数据集上效果更好更稳定速度更快。(3)最后,简要介绍了中文文本聚类的流程和文本信息的处理过程,同时将本文的增量聚类算法应用在中文文本聚类上,实现了中文文本的增量处理。实验结果证明,本文改进增量聚类算法在处理动态中文文本数据集时效果良好。