论文部分内容阅读
随着基因芯片技术在医学领域被广泛应用,大量微阵列数据被迅速积累,通过对这些数据进行分析并构建有效的分类模型,对一些潜在病患的早期诊断和临床治疗具有重要的研究意义和应用价值。然而,基因微阵列数据具有“高维小样本”的特点,如结肠微阵列数据集包含了两千多个基因特征。面对如此大规模的微阵列数据集,专家在短时间内不能直接进行分析和诊断治疗。此外,大多基因数据通常含有一些冗余或噪声数据,可能会导致疾病诊断算法的建模和训练时间过长时的过度拟合而误导,从而导致错误的医疗诊断。作为一种有效的降维方式,特征选择在生物医学领域已经引起广泛的关注并成为近年来生物信息学领域的研究热点。特征选择技术是对微阵列基因数据进行适当分析和分类的关键步骤,如果没有合适的特征选择方法,现有的模型很难准确捕获重要信息。本质上,特征选择问题可以被视为一个双目标优化问题,即在保持或提高预测精度的同时优化特征子集。目前已经存在一些针对微阵列生物医学数据的特征选择方法。其中,基于Wrapper的特征选择方法在搜索过程中旨在获得较高的分类精度而吸引了越来越多研究学者的注意。搜索策略是Wrapper方法中最重要的步骤,基于种群机制的元启发式搜索通常用于Wrapper方法寻找最佳特征子集提高分类性能。本文从提高Wrapper方法的搜索性能入手通过对不同类型的智能算法进行改进来对高维生物医学数据集进行特征选择。主要研究如下:1、提出了一种基于改进克隆花授粉的特征选择策略(IBCFPA)。克隆花授粉算法CFPA是通过Levy飞行公式和自花授粉交替来更新解。为了进一步提高CFPA的搜索性能,引入绝对平衡分组策略,将克隆花授粉算法搜索出的当前最优解进行克隆操作形成新的种群并分组,首先进行组内的局部更新,再进行组间的全局更新。通过自适应高斯突变操作来改善当前最优解,设置一个监管机制来判断搜索到的最优解是否陷入局部最优。实验结果表明,与其他智能算法相比,该方法IBCFPA可以高效选出最佳的特征基因获得更高的分类精确度。2、提出了一种基于改进珊瑚礁优化算法的特征选择策略(BCROSAT)。珊瑚礁优化算法CRO是通过模拟珊瑚礁幼虫的繁殖和进化过程更新个体的群体智能算法。在初始化过程将每个珊瑚幼虫模拟成一个二维向量,构建珊瑚初始种群。通过锦标赛选择策略从所有珊瑚虫中按一定的概率选择一个解来替换初始种群中最差解,不仅增强初始化种群的多样性,而且提高了初始解的质量。为了增强CRO算法的局部搜索能力,将模拟退火算法SA作为CRO算法的局部搜索算子。实验结果表明,BCROSAT算法的搜索性能优于IGA和MPSO等。为了验证BCROSAT算法的性能,使用不同的分类算法KNN,SVM和ELM结合10-折交叉验证来评估该算法的分类精确度。3、提出了基于增强的Wrapper模式的特征选择策略。鉴于Filter方法能够高效地对高维数据进行过滤,提出结合Filter和Wrapper模式的特征选择策略以提高分类的性能。在对基于花授粉算法和珊瑚礁算法的特征选择研究基础上,进一步结合卡方检测,分别提出了基于卡方和花授粉的特征选择策略Chi-IBCFPA和基于卡方和珊瑚礁的特征选择策略Chi-BCROSAT。在初始化过程构建双种群初始化策略,将一部分初始种群个体通过卡方检测来进行预处理,另一部分种群个体通过随机初始化设置。实验结果表明,提出的结合算法Chi-IBCFPA和Chi-BCROSAT的性能明显优于近年来提出混合模式IGGA和IG-PSO,结合后的Wrapper算法能够更高效的搜索出最佳特征子集达到较优的分类性能。