论文部分内容阅读
现在的社会是高速发展的社会,日益发展的科技,伴随着越来越多的信息流通,大数据便是这个时代的产物。大数据的价值并不在“大”,而在于“有用”,数据中的价值含量、挖掘成本比数据的量更为重要。在此基础上,数据挖掘技术的发展日益受到社会的重视。在数据挖掘技术中,特征选择技术是一种主要的数据分析技术。在大数据分析中,如何从高维数据中筛选出区分能力强、具有重要研究价值的特征是关键的研究方向。特征选择技术已经广泛应用于很多应用领域,如入侵检测、生物医学、生态环境科学等方面。基于支持向量机的特征回归消减方法(Support Vector Machine-Recursive Feature Elimination,SVM-RFE)是一种常用特征选择方法,它通过迭代删除的顺序对特征进行排序。本文首先研究在SVM-RFE迭代特征删除过程中选择最优特征子集的评价标准。为了更加准确的评价特征子集,在后向迭代特征选择过程中,采用准确率和样本的类重叠度综合评价特征子集的区分能力。一个具有较好区分能力的特征子集应该具有较高的准确率和较低的类重叠度。由此本文提出算法SVM-RFE-COA。此外在SVM-RFE的特征选择过程中,SVM基于当前的特征集和训练样本建模,训练样本的质量会影响特征权值的计算,如果当前特征空间下,样本的类重叠度很高,可能发生会过拟合,影响对特征的评价,故在SVM-RFE-COA的基础上提出算法M-SVM-RFE-COA,该算法在每次迭代删除特征的过程中,暂时屏蔽那些相对于原始特征空间类重叠度增加较大的训练样本,以选出更具区分能力的特征子集。在11个公共数据上的结果表明,SVM-RFE-COA结合准确率和样本的类重叠度作为评价指标比以准确率作为评价指标可以选出更具有区分能力的特征;并且M-SVM-RFE-COA在每次迭代选择的过程中,暂时屏蔽那些相对于原始特征空间类重叠度增加较大的样本,同样提升了SVM-RFE-COA的特征选择性能。ERGS是一种基于特征有效区间的特征选择算法,它计算特征在任意两类样本之间的重叠区域来评估特征的区分能力。一个特征的重叠区域越大,特征的区分能力越弱。但ERGS忽略了特征在任何两类样本上的重叠区域占其中任一类样本上有效区间的比例,这可能会影响对特征的评估。本文提出基于ERGS算法改进的MERGS算法,它计算特征在任何两类样本上的重叠区域占其中任一类样本的有效区间的比例来计算特征的基于有效区间重叠程度;并且对于每个特征,基于每个样本在该特征处的近邻中的异类样本数所占比例,计算在整体样本空间中该特征的基于近邻中异类样本所占比例的重叠程度。在8个公共数据上的结果表明,基于MERGS算法选出的特征分类性能要优于ERGS算法;并且将MERGS算法应用到一组肝病血清数据上,MERGS算法的性能也要优于ERGS算法。