论文部分内容阅读
物以类聚,人以群分。今天,面对互联网上日益增长的数据,聚类在数字图像处理、物种类别分析、网络社区发现、信息安全监测、企业商务智能决策和文本数据挖掘等领域得到了越来越广泛的应用。随着“互联网+”和大数据时代的到来,以K均值聚类为代表的传统聚类算法迫切地需要在算法的收敛速度和聚类的质量等方面进行必要的发展。本文通过引入密度峰值概念,重点研究旨在快速聚类的聚类初始中心点的选择技术,以及旨在提升聚类质量的基于多密度峰值的聚类数目估计方法,进而面向聚类在文本处理中的应用,实现了一种自动聚类算法。本文的主要成果如下:(1)提出了一种基于密度峰值为初始中心选择的快速聚类算法(CIPD)首先,分析了聚类初始中心的随机选择可能导致无法获得全局最优解,聚类结果不稳定,算法无法快速收敛等问题。本文基于聚类中心具有高密度,以及彼此之间距离较远的假设,提出了数据点成为聚类初始中心的潜在可能性指数R,并设计了一种聚类初始中心选择方法(PD)。基于PD方法,本文结合K-means,设计了一种快速聚类方法CIPD。该方法通过寻找数据点密度峰值的方式来寻找到初始聚类中心点,并结合K均值聚类更新这些中心点。在UCI公开四个数据集的测试结果表明,与传统针对K均值聚类的初始中心选择改进的聚类算法比,CIPD上具有更高的精度和更快的收敛速度。(2)提出了一种基于多密度峰值的聚类数目估计方法研究发现密度峰值的个数与聚类数目是密切关联的。基于这一事实,本文提出了一种基于多密度峰值的自动发现聚类数目K的算法CNSFDP。其主要思想为:首先,设计一个与密度峰值紧密相关的指数CS,具有越高CS指数的数据点越有可能一个成为密度峰值。接着,按照CS值的大小进行排列,纵坐标为CS值,横坐标为该CS值按大小顺序排列的序数,会形成一条具有明显拐点的曲线。此曲线拐点前的点含有高CS值,常常被视为密度峰值点。最后,利用最小二乘法等统计方法,可以寻找到这条曲线的拐点,并返回其横坐标值为聚类数目K。与其他针对聚类数目估计的算法相比,CNSFDP因其对数据分布低要求,而可以应用到呈复杂分布的数据集中,例如呈凹状,环状或者混合形状等复杂数据分布类型。在六个公开的UCI数据集上的测试结果表明,相比于基于AIC、BIC、Gap测试等的聚类数目估计算法,该算法有更高的准确率来发现聚类实际数目。(3)基于上述成果,设计了一种面向文本数据的自动聚类模型设计了一种自动聚类算法ACFDP。基于ACFDP,建立一种自动文本聚类模型。该模型首先通过分词、去停用词、建立向量空间模型VSM和计算词频逆向文件频率TF-IDF等方法,将文本数据向量化并提取其主要特征,然后运用ACFDP算法对其进行聚类,最后评价聚类效果。该模型针对从网上爬取的四个类别的文本,与基于K均值文本聚类模型相比,具有更高的准确率,同时因不需要对初始中心设置以及聚类数目估计而更加的智能化。