论文部分内容阅读
数据库中知识发现的重要组成部分——数据挖掘(Data Mining),是指在大型的数据存储库中挖掘出数据内部潜在模式或规则的过程。聚类分析则是一种探查数据内部结构的工具,也是数据挖掘中的一项重要技术,人们利用聚类分析将数据划分成有意义或有用的组,以此认识和探索事物之间内在联系。聚类分析既可以作为独立的数据挖掘工具,也可以作为其它数据挖掘算法的预处理和后处理步骤,且在各种领域中扮演着重要的角色,这些领域包括:营销管理、医学、统计学、顾客分析、生物学、模式识别、科学和工程探索等。因此聚类分析是指将数据对象按一定的标准指派到不同的分组(也称类或簇)中,使得同分组内的对象相似或相关性尽量高,而不同分组中的对象不相关性或相异性尽量大。科学技术、经济管理中的分类界限往往不是很分明,模糊C均值(FCM)聚类算法以某个隶属度隶属于某个类,使得聚类结果更加符合实际要求。而作为新兴的演化计算技术,量子行为粒子群优化算法可以借助分布式随机搜索特性提高全局优化能力,近年来,许多研究学者把量子粒子群优化算法引入到数据聚类领域里,对于聚类性能的改进发挥着重要作用。经典的FCM聚类算法存在对初值(包括初始质心和数目)敏感,易陷入局部极小值的问题,而量子行为粒子群(QPSO)算法在速度上又有所逊色。一个聚类分析过程的质量取决于度量标准的选择,许多经典的算法中都是选择欧几里得(Euclidean)标准,这种度量标准得到的聚类的精确度并不高,并且基于Euclidean距离的聚类方法一般只能处理具有相似尺寸、密度、无噪声点和孤立点的类图或球形聚类。因而如何设计出聚类算法具有高性能、高效率的特性,成为目前聚类研究领域一个的重要关注焦点。针对模糊C-均值(FCM)聚类算法对初始质心选择敏感度高,并且迭代寻优过程中易陷入局部最优解等问题,本文提出一种基于量子行为粒子群优化改进的模糊C-均值(AF-AQ-AF)聚类算法。这种聚类算法可以有效解决传统的FCM容易陷入局部最优的问题,使用新的距离度量方法取代Euclidean标准进行聚类增强聚类性能,同时引入的基于新距离改进的QPSO(AQPSO)并行优化思想使其具有更好的全局搜索能力、更高的收敛精度,同时目标函数的收敛速度也较量子行为粒子群(QPSO)聚类算法有一定的提高。随着经济的快速发展,环境污染问题直接或间接地影响着人类的生存、生活,尤其是水污染问题影响甚广,近二十年来,国家加大水质预测预报的研究力度,建立水质评价模型,以此来提高科学环境管理和综合决策能力。本论文利用改进的新聚类算法选择出最佳的聚类中心点进行模糊聚类,并通过对来自于无锡淡水养殖基地的水质数据实验分析,验证新聚类算法的有效性以及对异常数据抗干扰性。