论文部分内容阅读
在各种聚类算法中,K—means是一种基于划分的经典算法.但是由于Kmeans方法对于初始中心点的选择非常敏感,有可能导致聚类结果收敛于局部,本文提出了一种基于遗传算法来对类中心点进行全局寻优的文档聚类算法.在传统相似度计算的方法中,文档相似矩阵为绝大部分元素为0的稀疏矩阵,忽略了关键字之间的部分相似性,影响了文档之间的相似度.为此,本文改变了传统相似度计算的方法,通过关键字之问的部分相似度,设计出更加精确的文档相似度计算公式。在遗传算法的设计中,将K个类中心点组成的矩阵作为初始个体,采用浮点数进行编码;