论文部分内容阅读
聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。聚类的应用是非常广泛的,无论是在商务领域,还是在生物学、Web文档分类、图像处理等其它领域,都得到了有效的应用。目前聚类算法大体上分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法、基于模型的方法以及模糊聚类。k-means算法是聚类算法中主要算法之一。它是一种基于划分的聚类算法。该算法随机选取k(k为聚类数)个点作为初始聚类中心,通过一个迭代过程完成聚类。该算法有它固有的不足:算法本身是迭代的,且不能确保它收敛于最优解,它常常达到局部最优而得不到全局最优解;算法在进行聚类以前要求知道K值,这对于没有经验的用户来说很困难;初始聚类中心的选择对于最后的聚类结果有很大的影响。遗传算法是基于生物进化的概念设计了一系列过程来达到优化的目的。这些过程包括:基因组合、交叉、变异、自然选择。在这些过程中,通过“优胜劣汰”的原则来淘汰掉解较差的基因,使得解朝着好的方向发展。遗传算法从一组初始可行解出发在只需要目标函数这一信息的条件下实现对可行域的全局高效搜索并以概率1收敛到全局最优解,这种良好的特性使得遗传算法成为组合优化和函数优化的有力工具,并成为计算智能领域的研究热点。本文首先对聚类分析的遗传算法进行了研究,讨论了聚类问题的编码方式和适应度函数的构造方案与计算方法,分析了不同遗传操作对聚类算法的性能和聚类效果的影响意义。然后对k-means算法中初值的选取方法进行了分析和研究,提出了一种基于遗传算法的k-means聚类改进(混合聚类算法),在基于均匀采样的小样本集上用k值学习遗传算法确定聚类数k,用遗传聚类算法的聚类结果作为k-means聚类的初始聚类中心,最后在已知初始聚类数和初始聚类中心的情况下用k-means算法对完整数据集进行聚类。由于遗传算法是一种通过模拟自然进化过程搜索最优解的方法,其显著特点是隐含并行性和对全局信息的有效利用的能力,所以新的改进算法具有较强的稳健性,可避免陷入局部最优,大大提高聚类效果。实验采用标准数据集来测试该算法,并且和k-means算法的结果进行了比较,证实了该算法的有效性,并具有避免早熟和收敛较快的特点。