论文部分内容阅读
为了改善传统K-means算法在聚类过程中,聚类数目K难以准确预设,聚类结果受初始中心影响,对噪声点敏感,不稳定等缺点,同时针对文本聚类中文本向量化后数据维数较高,空间分布稀疏,存在潜在语义结构等问题,提出了一种利用奇异值分解(Singular Value Decomposition, SVD)的物理意义进行粗糙分类,再结合K-means算法的中文文本聚类优化算法(SVD-Kmeans)。新算法利用SVD分解的数学意义对文本数据进行了平滑处理,同时利用SVD分解的物理意义对文本数据进行粗糙分类,将分