论文部分内容阅读
在基于目标函数的聚类算法中,模糊C-均值聚类算法的理论最为完善、应用最为广泛。从理论上说,它通过迭代的爬山技术来寻找问题的最优解,是一种局部搜索算法。因此它有一个明显的缺点,就是容易受初始值的影响而陷入局部极小值。遗传算法是一种应用广泛的全局优化算法,它具有简单、通用、抗噪能力强等特点,是一种与求解问题不相关的算法模式。正是由于遗传算法的这些优点能够解决模糊C-均值聚类算法对初始化敏感的问题。因此,把模糊C-均值聚类算法与遗传算法配合起来使用,既可以发挥模糊C-均值聚类算法的局部搜索能力又充分照顾了遗传算法的全局寻优能力,从而提高混合算法的收敛速度并更好地解决聚类问题。通过阅读大量文献资料,并对模糊聚类算法、遗传算法以及其他相关算法的理解吸收和研究,本文提出了一种基于改进遗传算法的模糊C-均值聚类算法。论文的主要工作如下:(1)基本遗传算法的改进。在遗传算法中根据各个个体到当前最优种子的距离把种群划分成优势种群、次优种群两部分,并分别采用不同的遗传进化策略对两种群分别进行进化。在选择策略方面,采用了精英保留和轮盘赌混合策略,且与以往不同的是让精英个体参与下一代遗传操作,从而保证了算法的收敛性,确保了遗传进化的稳定性,抑制无效解的扩散,提高了对聚类中心的搜索效率。交叉变异方面,优势种群主要以交叉为主,次优种群以变异为主,保证了种群的平均适应度和种群的多样性。(2)改进遗传算法解决模糊C-均值聚类初值敏感问题。本文算法使用遗传算法对模糊C-均值聚类算法的初始聚类中心进行优化,解决初始值对模糊聚类算法的影响。针对该问题,编码采用把聚类中心作为染色体的实数编码机制,这种表示方法使得搜索空间扩大,有利于全局搜索,并且求解精度提高。适应度函数借助于模糊C-均值聚类算法的目标函数。判断准则采用最大迭代次数和上下几代平均适应度的变化值小于某一阈值来判断,缩短遗传算法的运行时间。(3)改进算法的性能分析。以MATLAB 7.0为实验仿真平台,使用标准数据集IRIS比较测试模糊C-均值聚类算法、基于简单遗传算法的模糊C-均值聚类算法和本文提出的基于改进遗传算法的模糊C-均值聚类算法的性能,实验结果表明本文算法能克服模糊C-均值聚类算法中的初始化敏感的缺点,在平均迭代次数和正确率方面有一定的优势。(4)改进算法的应用实例。最后使用该算法对试卷分析系统中的考试成绩进行处理,分析结果体现了模糊聚类的意义和对教学的指导作用。