论文部分内容阅读
近年来,在现实生活和科学研究中产生大量的高维海量数据集,使得传统分类器面临着前所未有的挑战。而大量研究表明,特征选择通过剔除不相关特征和冗余特征可以有效地提高分类器的性能,且特征选择还可以作为知识发现的工具,通过稳定的特征挑选,发现自然模型的真实变量。因此特征选择已经成为许多领域的研究热点,例如统计学,模式识别,机器学习和数据挖掘等。本文主要研究基于集成学习思想的稳定特征选择算法。当特征选择作为知识发现的工具,除了算法的分类性能,其稳定性也至关重要。为了获得高性能且稳定的特征选择算法,本论文基于集成学习思想,深入研究了三种不同的集成特征选择算法。首先介绍了基于能量模型的集成特征选择算法。主要研究基于能量模型的特征选择算法框架以及基于此框架的特征排序算法L-Lmba。并以所提出的特征选择算法L-Lmba作为基特征选择器,以线性组合作为集成策略,设计简单的集成特征选择算法。在现实数据集上的实验表明L-Lmba算法性能优于一些经典的特征选择算法如Relief,Lmba等,且集成后的特征选择算法的稳定性优于单个特征选择算法。其次,基于Logistic损失函数,并结合L2正则化项,设计新的集成特征选择算法L2-en-logsf。同时从能量模型的角度对算法进行了深入的分析,并探讨了算法的旋转不变性。在现实数据集上的实验表明,该算法可以获得比其它特征选择方法更好的分类性能和稳定性。最后,为了同时提高集成特征选择算法的分类准确率和稳定性,研究了基于局部学习和差异性的集成特征选择方法EFW。该方法充分利用集成机制所保证的算法稳定性,同时利用差异性,提高集成特征选择算法的分类准确率。在大量现实数据集(包括高维小样本数据集)上的实验表明,该算法可以获得更好的分类性能,同时保证较高的稳定性。