论文部分内容阅读
随着计算机技术和信息技术的飞速发展,人们对于计算机越来越迫切的希望其能具有人类认知能力。John McCarthy1956年在Dartmouth学会首次提出“人工智能”概念,在此之后,其中包括模式识别等人工智能学科得到了飞速发展。
模式识别的定义就是通过计算机对于输入的某一具体事物将其正确分类。数据获取、预处理、特征提取和选择、分类决策这四部分组成了模式识别系统。随着新技术的不断出现,在模式识别系统中,数据的规模越来越大并具有样本少、维数高等特点,这给传统的分类学习带来了巨大的挑战。因此,怎样在数据呈现高维特性时剔除其中的冗余或无关特征,避免维灾难问题,从而使得在高维数据环境下依然可以使用传统学习算法进行学习训练,这是当前研究人员们面临的一道难题。因此特征选择是模式识别系统中非常重要的一部分,也是设计一个性能优良分类器的前提和必要。
本文首选介绍了特征选择问题的定义以及分类,概述了特征选择的历史现状以及研究趋势,然后阐述了信息论中的一些基本概念和理论以及基于信息论的特征选择的基本思想,最后分别提出了一种改进的基于最大相关最小冗余有监督特征选择算法和一种基于信息论的无监督特征选择算法,并且在数据集上分别进行实验,验证了算法的有效性。
模式识别的定义就是通过计算机对于输入的某一具体事物将其正确分类。数据获取、预处理、特征提取和选择、分类决策这四部分组成了模式识别系统。随着新技术的不断出现,在模式识别系统中,数据的规模越来越大并具有样本少、维数高等特点,这给传统的分类学习带来了巨大的挑战。因此,怎样在数据呈现高维特性时剔除其中的冗余或无关特征,避免维灾难问题,从而使得在高维数据环境下依然可以使用传统学习算法进行学习训练,这是当前研究人员们面临的一道难题。因此特征选择是模式识别系统中非常重要的一部分,也是设计一个性能优良分类器的前提和必要。
本文首选介绍了特征选择问题的定义以及分类,概述了特征选择的历史现状以及研究趋势,然后阐述了信息论中的一些基本概念和理论以及基于信息论的特征选择的基本思想,最后分别提出了一种改进的基于最大相关最小冗余有监督特征选择算法和一种基于信息论的无监督特征选择算法,并且在数据集上分别进行实验,验证了算法的有效性。