论文部分内容阅读
科技的高速发展、信息的高速流通使得当代社会成了一个数据爆炸的时代。近年以来,大数据已经成为了一个热点课题。特征选择作为一种有效的数据预处理方法,在处理海量数据时可以有效的在提高分类问题的分类精度的同时降低时间复杂度。迄今为止,特征选择方法已经被广泛地应用于数据挖掘领域。近年以来,演化计算(Evolutionary Computation,EC)方法已成为解决特征选择问题的一种重要方法。EC方法所具有的随机搜索策略有着较强的搜索解空间的能力。然而,随着数据集维数的增长,越来越多的不相关或冗余特征随之产生。这些不相关和冗余特征有极大可能在大规模特征选择问题上导致局部最优问题。同时,在解决大规模特征选择问题时,仅有一个候选解生成策略(Candidate Solution Generation Strategy,CSGS)以及固定的参数的传统EC方法在搜索最优子集上表现不佳。为了提高EC方法搜索解空间的能力、更好的解决大规模特征选择问题,本文主要做了以下研究工作:(1)针对现有EC算法中的单一策略和固定参数带来的适应性不够强的问题,提出了一种基于自适应参数和策略的粒子群优化算法(Self-adaptive Parameter and Strategy based Particle Swarm Optimization,SPS-PSO)并将其用于优化大规模特征选择问题。在SPSPSO中,策略自适应机制和参数自适应机制被同时引入到粒子群(Particle Swarm Optimization,PSO)算法中。此外,为了考察不同分类器被用作特征选择的评估函数时对产生的最终特征子集的影响,K-最近邻(K-Nearest Neighbor,KNN),线性判别分析(Linear Discriminate Analysis,LDA),极限学习机(Extreme Learning Machine,ELM)和支持向量机(Support Vector Machine,SVM)四种分类器被分别用作特征选择过程的评估函数。(2)针对大规模前馈神经网络(Feedforward Neural Network,FNN)问题难以优化的难题,在所提出的SPS-PSO算法的基础上,将SPS-PSO以及基于SPS-PSO的特征选择方法应用到大规模FNN优化问题中。我们首先使用SPS-PSO直接在原始数据集上优化FNN问题。然后,再将原始数据集使用基于SPS-PSO的特征选择方法产生较小的特征子集,然后将特征子集作为FNN问题的输入再进行优化。(3)针对SPS-PSO算法的候选解产生策略来源单一的问题,在保留原先3种来自PSO的CSGSs的基础上,从差分演化(Differential Evolution,DE)算法中引入3种新的CSGSs组成一个含有6种CSGSs的策略池,并将由此形成的新算法命名为基于参数和策略的自适应差分粒子群优化算法(Strategy And Parameter Self-Adaptive Differential Particle Swarm Optimization,SPS-DPS)。为了验证该方法的实用性,我们将该算法应用于无线传感器网络(Wireless Sensor Networks,WSN)的入侵检测问题。