论文部分内容阅读
分类是数据挖掘和机器学习领域中重要的研究分支,其目的是根据特征所描述的信息将每个实例准确划分到不同的组中。但随着所收集数据集维度的急剧增加,大量与分类任务不相干和冗余的特征信息被添加到数据集中,这些无关特征信息不仅会增加模型构建的复杂度,还会降低机器学习算法的性能,甚至造成“维数灾难”和“过拟合”问题。特征选择是一种有效的数据预处理技术,能够有效去除与目标任务不相干和冗余的特征信息,降低机器学习算法的计算复杂度,提升所建模型的分类精度和泛化推广能力。因此,针对高维分类问题探索高效的特征选择方法具有较高的研究价值和应用价值。
粒子群优化算法是受鸟群觅食行为启发而提出的一种智能优化算法,因其具有高效且易实现的优点,因此被广泛应用于解决特征选择问题。但是,在处理高维数据的特征选择时,现有基于粒子群优化算法的特征选择方法大多存在易陷入局部最优、计算成本高、过早收敛和搜索效率低等问题。本文重点对粒子群优化算法在高维特征选择中的关键问题展开相关研究,提出了三种新的特征选择方法,具体研究工作如下:
(1)针对粒子群优化算法在特征选择过程中易陷入局部最优、缺乏多样性和局部与全局搜索不平衡等问题,在种群初始化方法、参数调整策略和下一代粒子生成机制方面对原始算法进行了改进,提出了一种基于改进粒子群优化算法的特征选择方法(HPSO-SCAC)。该方法不仅可以有效提高机器学习算法的分类性能,还可以显著提升特征子集搜索的效率。在多个真实高维分类问题上的实验结果表明,HPSO-SCAC方法在找到质量较高特征子集的同时,还可以有效增强粒子群优化算法在搜索过程中的收敛性能。
(2)粒子群优化算法依据个体最优位置(pbest)和全局最优位置(gbest)引导粒子在搜索空间中移动,这种策略具有简单和高效的特点,但当需要确定移动方向的粒子位于pbest和gbest之间时,容易导致粒子在搜索过程中的振荡问题,从而降低粒子群优化算法的搜索效率并错失部分性能较好的解。为此,提出了一种基于特征相关性与代理模型的特征选择方法(SPSO-CUS)。该方法的核心思想是利用特征的相关性信息生成了大量质量较高的特征子集,构建了代理模型对这些特征子集进行预评估,设计了粒子选择策略挑选性能较好的粒子形成下一代初始种群。在高维分类问题上的实验结果表明,SPSO-CUS方法能够获得比同类特征选择方法辨别能力更强的特征子集。
(3)针对粒子群优化算法在高维数据特征选择中计算复杂度高、搜索效率低等问题,受多任务智能优化方法中知识迁移思想的启发,提出了一种基于多任务智能优化的特征选择方法(MTPSO)。该方法将高维特征选择问题转化为若干个相关的低维特征选择问题,通过在这些低维且相关的特征选择任务之间进行知识迁移完成对最佳特征子集的搜索。与不同类型特征选择方法在多个高维分类问题上进行的对比实验表明,MTPSO方法能够在更短的时间内找到具有较强分类性能的特征子集。
本文研究成果不仅适用于高维分类任务的特征选择,而且比同类型特征选择方法具有更好的性能指标。同时本文提出的方法也为高维特征选择研究提供了新的思路与方向。
粒子群优化算法是受鸟群觅食行为启发而提出的一种智能优化算法,因其具有高效且易实现的优点,因此被广泛应用于解决特征选择问题。但是,在处理高维数据的特征选择时,现有基于粒子群优化算法的特征选择方法大多存在易陷入局部最优、计算成本高、过早收敛和搜索效率低等问题。本文重点对粒子群优化算法在高维特征选择中的关键问题展开相关研究,提出了三种新的特征选择方法,具体研究工作如下:
(1)针对粒子群优化算法在特征选择过程中易陷入局部最优、缺乏多样性和局部与全局搜索不平衡等问题,在种群初始化方法、参数调整策略和下一代粒子生成机制方面对原始算法进行了改进,提出了一种基于改进粒子群优化算法的特征选择方法(HPSO-SCAC)。该方法不仅可以有效提高机器学习算法的分类性能,还可以显著提升特征子集搜索的效率。在多个真实高维分类问题上的实验结果表明,HPSO-SCAC方法在找到质量较高特征子集的同时,还可以有效增强粒子群优化算法在搜索过程中的收敛性能。
(2)粒子群优化算法依据个体最优位置(pbest)和全局最优位置(gbest)引导粒子在搜索空间中移动,这种策略具有简单和高效的特点,但当需要确定移动方向的粒子位于pbest和gbest之间时,容易导致粒子在搜索过程中的振荡问题,从而降低粒子群优化算法的搜索效率并错失部分性能较好的解。为此,提出了一种基于特征相关性与代理模型的特征选择方法(SPSO-CUS)。该方法的核心思想是利用特征的相关性信息生成了大量质量较高的特征子集,构建了代理模型对这些特征子集进行预评估,设计了粒子选择策略挑选性能较好的粒子形成下一代初始种群。在高维分类问题上的实验结果表明,SPSO-CUS方法能够获得比同类特征选择方法辨别能力更强的特征子集。
(3)针对粒子群优化算法在高维数据特征选择中计算复杂度高、搜索效率低等问题,受多任务智能优化方法中知识迁移思想的启发,提出了一种基于多任务智能优化的特征选择方法(MTPSO)。该方法将高维特征选择问题转化为若干个相关的低维特征选择问题,通过在这些低维且相关的特征选择任务之间进行知识迁移完成对最佳特征子集的搜索。与不同类型特征选择方法在多个高维分类问题上进行的对比实验表明,MTPSO方法能够在更短的时间内找到具有较强分类性能的特征子集。
本文研究成果不仅适用于高维分类任务的特征选择,而且比同类型特征选择方法具有更好的性能指标。同时本文提出的方法也为高维特征选择研究提供了新的思路与方向。