集成特征选择算法的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:paokahh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在现实生活和科学研究中产生大量的高维海量数据集,使得传统分类器面临着前所未有的挑战。而大量研究表明,特征选择通过剔除不相关特征和冗余特征可以有效地提高分类器的性能,且特征选择还可以作为知识发现的工具,通过稳定的特征挑选,发现自然模型的真实变量。因此特征选择已经成为许多领域的研究热点,例如统计学,模式识别,机器学习和数据挖掘等。本文主要研究基于集成学习思想的稳定特征选择算法。当特征选择作为知识发现的工具,除了算法的分类性能,其稳定性也至关重要。为了获得高性能且稳定的特征选择算法,本论文基于集成学习思想,深入研究了三种不同的集成特征选择算法。首先介绍了基于能量模型的集成特征选择算法。主要研究基于能量模型的特征选择算法框架以及基于此框架的特征排序算法L-Lmba。并以所提出的特征选择算法L-Lmba作为基特征选择器,以线性组合作为集成策略,设计简单的集成特征选择算法。在现实数据集上的实验表明L-Lmba算法性能优于一些经典的特征选择算法如Relief,Lmba等,且集成后的特征选择算法的稳定性优于单个特征选择算法。其次,基于Logistic损失函数,并结合L2正则化项,设计新的集成特征选择算法L2-en-logsf。同时从能量模型的角度对算法进行了深入的分析,并探讨了算法的旋转不变性。在现实数据集上的实验表明,该算法可以获得比其它特征选择方法更好的分类性能和稳定性。最后,为了同时提高集成特征选择算法的分类准确率和稳定性,研究了基于局部学习和差异性的集成特征选择方法EFW。该方法充分利用集成机制所保证的算法稳定性,同时利用差异性,提高集成特征选择算法的分类准确率。在大量现实数据集(包括高维小样本数据集)上的实验表明,该算法可以获得更好的分类性能,同时保证较高的稳定性。
其他文献
真实对象的三维重建,是计算机虚拟现实领域重要的研究内容之一,其中三维形状重建和三维纹理重建是真实对象三维重建中的两大核心内容。三维扫描、模型配准、模型匹配等技术的
在资源日益紧缺、人力成本、空间使用成本日益攀升的今天,虚拟化已逐步迎来全面的复兴,并在当前数据中心中得到了广泛地使用。虚拟机平台,将服务器的资源通过抽象和虚拟化进行整
随着互联网技术和信息技术的不断发展,存储系统中的数据量不断增长并呈海量形式发展。传统的依赖本地服务器的存储已经无法满足日益增长的存储需求,因此大规模的基于分布式存储
近年来,视频监控系统在公共场所监控、智能交通、森林防火、水利监测、公安刑侦系统等领域得到越来越广泛的应用。随着电子技术、计算机网络和通信技术的发展,市场对视频监控产
随着计算机软硬件技术的发展,数字图像应用越来越广泛。然而,在图像采集、处理、传输和呈现的过程中,都可能引入各种失真。主观方法和传统客观方法由于自身的局限性,不能达到应用
随着传统互联网的发展和移动互联网的兴起,许多像微博、社交网络这样的内容提供商发展迅速。在互联网上,每天都有海量的文本、图像、视频数据需要处理,尤其对于图像数据,PB级别已
学位
随着移动互联网的快速发展,我们逐渐步入大数据时代,越来越多的人可以将自己的观点、心情等信息发布到网络平台中。评论中蕴含有很大的信息量,商品评论可以分析得出评论者对商品
认知科学是研究人类感觉、知觉、精神状态、大脑思维过程和信息处理过程的前沿性尖端学科,该方面的研究对揭示人脑之谜具有重要意义。认知任务的模式分类被广泛用于构建脑机交
传统机器学习技术必须建立在训练数据集和测试数据集来自同一分布的样本集的假设前提下。若测试数据集数据分布发生改变,那么就需要重新训练预测分类器以适应这种变化。然而,新