论文部分内容阅读
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用'或运算'合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合'最小最大'原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显