论文部分内容阅读
烟花算法是近几年新兴的一种群体智能算法。烟花算法具有在全局搜索(勘探性)和局部搜索(开采性)之间的自调节能力,在复杂优化问题上具有很强的求解能力,从而受到了研究者的广泛关注。支持向量机(SVM)是机器学习领域常见的分类器,可以应用于非线性和高维问题,特别适合于解决小样本分类问题。SVM中参数的取值在很大程度上影响着SVM的分类性能,而优良的特征选择方法能够有效去除冗余的特征,提高SVM分类的效率。基于上述背景,本文对烟花算法及其在特征选择和SVM参数联合优化中的应用进行研究,主要工作如下:(1)提出一种采用失败者淘汰策略的增强型烟花算法。该算法采用一种新型的考虑位置特征的映射规则,把超出爆炸空间上边界的爆炸火花映射到爆炸空间上边界附近的区域、把低于爆炸空间下边界的爆炸火花映射到爆炸空间下边界附近的区域。改进后的映射规则保留了生成的火花与边界的相对位置信息,从而更有针对性地对超出边界的火花进行了映射。所提算法引入了爆炸火花数量参数的自适应调整策略,以更好地平衡算法的全局和局部搜索能力。选取CEC2013标准测试函数集中的28个函数进行测试,实验结果表明所提算法具有更优的搜索性能。(2)提出一种基于改进烟花算法对特征选择和SVM参数的联合优化算法。针对该应用问题的特点,设计了一种新型的适应度评价方法,除了在提高SVM分类准确度的同时降低样本的冗余特征数之外,该方法能够随着所选特征数的增加,自适应地加大对适应度的惩罚幅度,且保证了特征选择部分的适应度取值分布的多样性和宽广度。针对基本烟花算法中个体缺少信息交互的不足,引入了差分变异算子改善算法的信息交互能力,增强算法的局部搜索性能。在基本烟花算法中,选择策略需要计算候选池中任意两个火花间的欧式距离,从而增加了算法的时间复杂度,针对上述不足,本文提出了一种基于适应度值的轮盘赌选择策略,与基本的烟花算法相比,降低了算法的时间复杂度,提高了算法的运行效率。选取9个UCI分类数据集作为测试集,验证了所提两种改进策略在提升算法性能方面的有效性,并将所提算法与经典的遗传算法、粒子群算法和近几年比较优秀的群体智能算法进行比较,实验结果表明本文算法在大部分测试数据集上能够以较少的特征数获取更高的分类准确率,表现最好。(3)利用上述基于改进烟花算法对特征选择和SVM参数的联合优化算法,提出一种乳腺癌分类诊断器。该诊断器分为数据集输入、数据预处理、基于改进烟花算法的特征选择和SVM参数优化、SVM模型训练、SVM模型测试以及分类结果输出六个部分。在美国威斯康星州的乳腺癌原始、诊断和预后三种不同的数据集上,将所提基于改进烟花算法的分类诊断器与采用传统进化算法和机器学习的分类模型进行对比,实验结果表明所提诊断器总体上能够获得较高的分类准确率,具有很强的实用价值。