论文部分内容阅读
21世纪是知识经济时代,知识发现已受到日益广泛的关注。聚类分析是知识发现中一个极为重要的分支,几乎可用于社会生活的各个方面。而核聚类算法由于具有许多经典聚类算法无法比拟的优势,逐渐成为聚类算法研究领域的一大热点。本文主要研究的支持向量聚类(Support Vector Clustering, SVC)算法就是一种典型的核聚类算法。与其他聚类算法相比,SVC算法具有两大显著优势:一是不需要事先确定簇的数目,且能产生任意形状的簇边界;二是能分析噪声数据点且能分离相互交错的簇。SVC算法分为两个阶段:SVC训练阶段和聚类分配阶段。这两个阶段分别需要计算Lagrange乘子和邻接矩阵,而这两个计算问题可能导致算法具有较高的时间复杂性。正是针对这两个问题,本文提出一种改进的SVC (Improved SVC, ISVC)算法。在SVC训练阶段,提出一种基于熵的最小闭包球(Minimal Enclosing Sphere, MES)算法。可以证明,这种方法能有效减少计算Lagrange乘子的时间。在聚类分配阶段,首先利用核矩阵提供的信息对数据点进行初始分类,然后用计算初始类的中心点集上的邻接矩阵代替经典SVC算法中计算整个数据集上的邻接矩阵。这种方法能有效减少邻接矩阵的规模,从而提高邻接矩阵的计算效率。因此,ISVC算法对经典SVC算法的两个瓶颈问题都进行了改进。数值实验表明,ISVC算法不仅显著改善了经典SVC算法的时间性能,在聚类精度上也有一定程度的提高。之后将ISVC算法应用于文本聚类。选择复旦大学整理的小规模语料库中的100篇文本进行实验。首先对实验文本集进行预处理,依次为:切分文本集;利用向量空间模型(Vector Space Model, VSM)将切分后的文本集表示成矩阵形式;利用主成分分析(Principal Component Analysis, PCA)技术对文本集进行降维。然后利用ISVC算法将预处理后的文本数据聚类,并对聚类结果进行描述。最后对比了ISVC、k-均值和层次聚类中的凝聚算法(DHCA)三种算法在实验文本集上的聚类结果,发现ISVC算法具有较高的精度。这说明本文的ISVC算法在一定程度上提高了文本聚类的效率。