论文部分内容阅读
科技的迅猛发展使得我们获得信息量爆炸式增长,如何从这些信息中的得到有价值的数据,模式分类等人工智能的科学应运而生并且逐渐成为研究热点之一。模式分类系统为了最大获得某些事物的特征等相关的信息,将通过以下四个步骤,分别是获取某事物的特征数据,对数据进行预处理,再接着通过特征选择,最后是对特征数据进行特征评估。经过这四个步骤后将能获取某具体事物的正确分类。然而数据的维度越来越高将会造成维数灾难,无关和冗余特征较多等特点的出现迫切使得研究人员需要在传统的算法上进行优化和创新,使得新的算法在通用性上更强并且在运行效率上更高,而对于模式分类系统中非常的重要的特征选择环节是我们得到优良分类器的重要前提。本文首先介绍了特征选择的理论基础和特征选择算法的分类,概述了国内外特征选择算法的研究现状,在ReliefF算法和主成分分析算法的基础上进行了优化和创新,即基于ReliefF优化的核主成成分析的二次特征选择法。本文首先验证了基于PCA的ReliefF方法比单纯的ReliefF方法提取出的有效的信息更多,然后验证了KPCA比PCA得到的特征的维数更低,并且提供的特征信息更多,最后在ReliefF和KPCA结合的方法上又加入了了二次特征筛选和去除冗余信息的方法。本文基于ReliefF优化的核主成成分析的二次特征选择算法能够有效处理维度过高,具有冗余特征和无关特征的数据,并且实验证明了该算法具有较强的分类准确度。