论文部分内容阅读
针对原始k-means算法对聚类数k很敏感这一问题,设计一种改进的k-means算法。该算法基于共现词的原理计算词向量之间的相似性,并根据相似性阈值将数据划分为k+x个簇,再将k-means算法用于k+x个簇中。将改进后的算法应用于文本聚类中,实验结果表明,改进后的算法比原算法聚类准确性更高。