论文部分内容阅读
针对传统的k-means算法存在容易陷入局部最优以及对初始聚类中心的高度依赖性等缺陷,提出了一种改进初始中心选取的新的k-means算法。由于词空间的文本聚类方法很难处理文本的高维特性和复杂语义性,因此通过采用语义特征选取的方法从高维特征空间中提取文本向量的主要成分,从而实现文本输入空间的降维和语义特征空间的抽取。实验结果表明:语义特征选取处理不仅可实现降维,大幅减少文本聚类的时间,而且能有效提高聚类系统的准确性。另外,改进的k-means算法对整个聚类的效果也有明显的改善。将两者结合之后,聚类效果更加显著。