论文部分内容阅读
互联网的快速发展和广泛普及,使网络上文本数据呈爆炸性增长,如何及时准确地从这些大数据文本中获得有价值的信息是学者们研究的热点问题。在此情况下,利用文本聚类对大规模文本信息进行组织、提取重要特征,发现有用价值,以达到减少人工整理文档的工作量,提高文档检索效率,文本聚类的应用前景和研究意义非常深远。K-means算法由于具有简单、速度快等优点在文本聚类中普遍运用。然而K-means算法本身存在一些缺点,如初始中心的选择具有随机性,算法不稳定,并且会收敛于聚类局部最优,同样,k值的选择往往根据用户的个人经验,而k值的选取却直接影响聚类结果的好坏。论文针对K-means算法的这些缺点展开研究并进行改进优化,并将优化后的算法应用到文本聚类实例中,论文主要做了如下工作:第一,快速密度峰值搜索算法(Clustering by Fast Search and Find of Density Peaks,CFSFDP)是一种新颖、简洁、高效、基于密度的聚类算法,它可以聚类各种类型的点集。然而当数据集中存在某个类具有多密度峰值情形时,CFSFDP算法不能有效聚类此类数据集。针对这个问题,论文提出基于边界样本优化的快速密度峰值搜索算法(M-CFSFDP),该算法根据邻近簇的边界样本个数来判断是否合并簇。使用本文所选的代表性数据集作为测试数据集,M-CFSFDP算法在测试数据集上可以正确聚类。对比原算法和M-CFSFDP算法的聚类结果可知,改进后的算法在数据集中某个类中存在多密度峰的情况比CFSFDP算法的聚类结果更加准确。第二,针对CFSFDP算法在计算数据点的局部密度时会受到截断距离的影响。根据物理学中势能的概念,将数据集假设为一个势能场,所有的数据点对其它任何数据点都会有影响,能够计算出每一个数据点的势能。由于在数据域中,势能较大的点位于密集区域,这与数据点的密度分布具有一致性,数据点的势能和数据点的密度在效果上也有一致性。论文提出了一种用动力学中的势能替换数据点的局部密度的优化算法(P-CFSFDP)。经典人工模拟数据集上的实验表明,改进后的算法能很好地表示每个数据点的局部密度,并能通过决策图很好地找到初始聚类中心点。第三,K-means算法进行迭代聚类时,初始中心的选择具有随机性,算法不稳定,且会收敛于聚类局部最优。针对这个问题,论文提出基于密度峰值优化初始中心的K-means算法(KP-CFSFDP)。KP-CFSFDP算法利用P-CFSFDP算法来选取初始聚类中心,然后用K-means算法迭代聚类。UCI数据集上的实验表明,KP-CFSFDP算法解决了K-means随机选取初始中心导致聚类结果不稳定的问题。第四,针对K-means算法随机选取输入k值的缺点,论文提出一种基于KP-CFSFDP算法的最佳聚类数确定方法(IKP-CFSFDP算法),该算法可以自动确定最佳聚类数搜索范围。算法首先确定数据集可能的最大类簇数Kmax,以Kmax为搜索上界,利用本文提出的KP-CFSFDP算法迭代聚类,以DB(Davies-Bouldin)和SiL(Silhouette)作为聚类有效性评价指标,最终确定最佳聚类个数。理论分析和在UCI数据集上的实验表明,IKP-CFSFDP算法不仅可以确定最佳聚类数,还可以选择较好的初始聚类中心,该算法具有很好的有效性。最后,论文将IKP-CFSFDP应用到文本聚类的实例中。采用搜狗文本语料库作为实验数据集,使用NLPIR汉语分词系统进行中文分词、去除停用词、提取特征词;使用TF-IDF计算特征词权重,建立文本表示VSM模型,结合IKP-CFSFDP算法对数据集聚类。实验结果表明,IKP-CFSFDP算法在文本挖掘应用中具有更高的准确率以及更好的稳定性。