论文部分内容阅读
K均值聚类算法作为一种经典的基于划分技术的聚类算法凭借着其原理简单、执行效率高以及易实现等特点而被普遍使用。但是,K均值聚类算法对初始聚类质心的选择非常敏感,不同的初始聚类质心往往会造成差异较大的聚类结果。与此同时,群体智能仿生算法的兴起为众多学者在数据分析上提供了新思路。萤火虫算法是受生物界中萤火虫种群生存特性的启发而衍生出来的。萤火虫算法具有全局寻优能力强、算法输入参数较少以及实现容易等特点,但是在算法迭代后期往往会在最优解附近产生较强的波动,此外,该算法一旦陷入局部最优则很难跳出。针对上述萤火虫算法存在的弊端,本文受混合蛙跳算法分组思想的启发,首先对萤火虫算法引入了随机分组的思想,之后对萤火虫算法引入了动态惯性系数和移动方向因子。最后将改进后的萤火虫算法和K均值相结合,完成了K均值聚类算法在指定质心情况下的聚类分析。最后对实验数据集利用结合算法执行离群点的检测,并完成时间序列模型的应用。具体工作内容如下:⑴萤火虫算法的全局寻优能力是最为重要的。本文为了确保并提升该算法的全局寻优性能,在原始算法的基础上引入了随机分组的思想。随着种群每一次的迭代进化进行一次随机分组,达到先小组寻优后种群寻优的目的。⑵对于原始萤火虫算法的位移公式,本文通过增加动态惯性系数和移动方向因子对其做出了改进。使得萤火虫个体在寻优的过程中可以更好的趋近最优解,同时更有能力跳出局部最优而趋向全局最优。⑶在将改进后的萤火虫算法的思想和传统K均值的理念进行融合的过程中。本文选取所要聚类数据集中的每一条数据为一个萤火虫个体,以簇内变差为目标函数,进行最优解的优化。最后完成了K均值在指定初始聚类质心情况下的聚类分析。⑷为了保证时间序列模型预测结果的准确性,本文首先利用上述的结合算法对数据集进行离群点检测并剔除离群点,之后利用牛顿插值算法进行数据填充。如此不仅保证了数据集的准确度,还保持了数据集的完整性。最后通过实验表明对以该方式处理后的数据集进行预测的可行性。通过对数据集进行实验的结果表明,改进后的萤火虫算法不仅具有较高的稳定性也具有良好的高效性,同时将其与K均值聚类算法相结合对数据集进行聚类分析时也取得了较高的准确率。最后在对加拿大北部地区的月CO2含量进行预测的应用实验结果中也表明了结合算法对数据集进行离群点检测的可行性。