论文部分内容阅读
过滤式特征选择是一种在基因表达数据上广泛使用且简单有效的方法。针对其特征子集冗余性问题,使用皮尔逊相关系数,提出一种带冗余去除的特征选择算法。研究了在不同相关强度下特征子集冗余去除及分类准确度效果。实验选用三个不同的基因表达数据集,使用支持向量机、k近邻、随机森林作为分类器分别进行了测试。实验结果表明,带冗余去除的过滤式特征选择方法在不同分类器上均能获得良好的分类性能,另外,此方法在降低特征子集维度的同时能够提高分类准确度。