基于特征关联度的K-means初始聚类中心优化算法

来源 :四川大学学报(工程科学版) | 被引量 : 0次 | 上传用户:youlanbihai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对K-means算法在进行文本聚类时对初始聚类中心敏感的问题,提出基于特征关联度的初始聚类中心选择算法。由于在原始文本集中不易找到类别代表性都较强的多个独立文本作为初始聚类中心,因此先从降维后的文本特征集合中,选取关联度大的特征构造新的文本集,再利用'或运算'合并其中的相似文本得到初始聚类中心候选集,最后通过计算文本密度并结合'最小最大'原则从候选集中选取最优的初始中心。在5个数据集上进行对比实验,该算法在多数聚类结果中的F-score值都高于90%,熵值低于0.5,明显
其他文献
中新元古界蓟县系雾迷山组是天津市开发利用主要的热储层之一,目前年开采量已经达到了近1 700万 m3 ,占全市地热资源开采总量约53%,但主要开发利用的为三、四段热储. 随着开
空间核动力平台是一种全新的电源推进一体化航天器,其电力系统具有三相交流输出、工况多且复杂、母线电压体制多等特点。为了解决空间核动力平台负载供电诸多难题,通过对系统
中国内地经济参数的变动,形成影响澳门经济运行轨迹的一系列变量。中国内地自2005年7月开始实行汇率制度改革以来,人民币对美元升值的步伐不断加快。人民币升值对澳门特别行