论文部分内容阅读
特征选择,是在利用机器学习算法构建模型前,对原始数据的预处理过程,是机器学习领域受到广泛关注的研究问题之一。对于高维数据的分析计算,一方面,很容易陷入“维度灾难”的困境;另一方面,可能并非所有维度的数据或概念都同样包含重要的预测信息。因而,特征选择算法作为数据的降维技术显得尤为重要。总体来讲,特征选择算法中的核心问题包括计算:(1)特征子集与预测类别的相关性;(2)特征间包含分类信息的冗余性;(3)平衡(1)和(2)二者的权重比例。 在考虑特征与类别相关程度的评估时,往往忽略了特征对区分不同类别贡献程度不均的问题,仅计算特征与整体类别的关系。本文针对该问题,提出了特征分类能力的向量化表示,并利用特征对于区分不同类别能力的差异,选择“互补”特征进入特征子集,从而优化特征选择过程,快速得到具有较优分类能力的特征子集。并通过与流行的特征选择算法进行对比实验,证明了本文提出的CFSCC算法能够在选择较少的特征数目的情况下,仍然具有更优的分类效果。 对于特征子集分类能力的度量,多数算法通过特征间冗余性的计算,考虑所选子集特征之间的相互影响;而在估算特征子集与类别的相关性时,隐含地假设了特征的独立性,忽略了特征组合对于相关性计算的影响。然而,将子集中单个特征与类别的相关度的平均值作为子集分类能力的度量,同时利用特征间相似度近似估计特征冗余量,并未充分考虑特征组合对于类别间相关性的影响以及相关性与冗余性的内在关系。事实上,特征组合本身可能对于分类能力具有很强的贡献力,起到提升分类效果的作用,也可能干扰分类决策。而冗余性的度量应该建立在提供分类信息的重合性的基础上,并非特征本身的相似度。由此,本文定义了特征互补量和冗余量的计算方法,在考虑特征间作用力的情况下,度量特征子集与类别的相关性,并结合特征冗余量,定义评价函数。同时依据提出的特征分类能力的向量化表征,通过加入结构互补性较强的特征完成搜索,以快速得到较优的特征子集。最后,通过对比实验证明了算法的有效性。