论文部分内容阅读
随着数据挖掘和机器学习应用领域的数据朝着大规模,高维度方向发展,这给传统的数据挖掘带来了巨大的挑战。例如在生物信息学中的基因表达阵列分析,所处理的数据集具有高特征、低样本的特点,其中存在的冗余特征或者不相关特征,不仅会降低学习算法的学习速度,影响到算法的准确率、知识发现以及知识的理解,而且会造成“维灾难”的问题。因此,特征选择在目前海量数据的条件下尤为显得重要。特征选择是根据某种评估标准,从原始特征空间中去除不相关以及冗余的特征,达到降低特征空间维数的目的,在很多领域得到了广泛应用。基于信息论的特征选择算法是近年来的一个研究热点,出现了大量基于信息熵的选择算法。本文对特征选择及信息论相关知识进行总结研究,分析目前信息度量的发展趋势以及典型的信息度量方法,目的是提出一个普遍适用的基于信息论的特征选择度量标准NVI(Normalized variation of information),并详细证明该标准满足度量距离的条件——对称性、非负性和三角不等式。基于新的度量标准提出了一种改进的特征选择算法IFCA,该算法采用k-means聚类算法的基本思想,并将相关度高的特征组成为一个聚类,再从每个聚类中选择区分能力较强的特征,同时达到去除冗余和不相关特征的目的。通过在公用测试数据集上与其它典型的度量表示对比实验表明,本文提出的度量标准NVI能够获取较小的特征子集,运行效率较高,并且将取得的特征子集用于不同的学习算法,都获得较好的的分类性能,同时该信息度量不但可以描述特征的类相关度,还可以描述特征间的依赖关系,可作为算法的距离度量标准,不局限于本文提出的特征选择算法。在公用测试数据集的实验也表明本文所提的算法IFCA在不同分类器上具有较低的训练和泛化错误,能够应用于处理高维数据集。虽然在公共测试数据集上的模拟实验表明了所提出的IFCA特征选择算法的有效性,但它也存在几个方面缺陷,今后主要的工作将对存在的这些问题加以改进,以进一步提高所提出的选择算法的性能和效率。