论文部分内容阅读
随着获取信息技术的飞速发展,信息数据以前所未有的速度增长和积累,信息社会进入“大数据”时代。这些数据往往呈现出样本多、维度高的特点,对机器学习和数据挖掘带来了巨大的挑战。高维数据集中往往存在大量冗余的、无关的甚至是噪声的信息,这些信息可能对机器学习算法的建模造成困扰,如增加计算成本、降低学习模型的泛化性能和准确率等。特征选择技术通过剔除原始高维数据集中的噪声、无关和冗余特征,实现对数据集的预处理,良好的特征选择结果可以高效地生成精度更高的机器学习模型,因此,针对高维数据特征选择方法的研究具有重要的研究价值和应用意义。本文从信息差异性分析的角度出发,在聚类特征选择、启发式特征选择、深度特征选择和集成特征选择方面开展了一系列研究工作。信息差异性可以很好地度量变量之间的分布差异,研究工作采用信息距离度量及其变换和信息交叉熵等信息差异性分析指标作为评价判据,研究和设计新的特征选择准则和方法,实验证明在分类建模中应用所提出的特征选择算法,获得了良好的分类预测准确率。本文研究工作的主要内容和贡献包括以下几个方面:(1)针对聚类特征选择算法中特征差异表达不足的问题,利用信息距离作为差异性分析指标,提出了一种基于密度峰值聚类的特征选择方法DPCID(Density Peaks Clustering based Feature Selection using Information Distance)。该方法首先构建了基于信息距离的最大相关最大差异特征选择准则,然后利用密度峰值聚类算法实现了该准则的优化求解,并针对噪声特征可能聚为一个或多个簇类导致噪声特征被选为代表特征这一问题,引入噪声特征剔除处理,使得特征聚类在相关特征集上进行,同时实现了不同簇类特征之间的信息差异最大化。在高维的基因表达谱和文本分类问题数据集上对该算法进行实验验证,通过与经典的Filter特征选择方法和聚类特征选择方法在不同分类器上进行分类性能比较,实验结果表明提出的算法取得了更优的性能。(2)针对基于信息相关性的特征选择方法过于倾向选择熵值较大的特征而导致的分类器过拟合问题,在选择熵值较大的特征时引入自冗余因子进行适当的惩罚,提出了一种基于信息距离度量的启发式特征选择方法MFFID(Maximizing the Feature-Feature Information Distance)。该方法的特征选择准则是信息距离度量的表达形式,基于该表达形式生成新的前向增量特征选择算法。MFFID方法有效利用了特征之间的差异性来实现了对高熵特征的适当惩罚。在不同的特征选择数目和不同的分类器条件下比较了提出的算法和经典的启发式特征选择算法,在12个基因表达谱上的实验结果证明了MFFID方法的优越性。(3)深度学习模型在建模小样本数据集时,往往存在训练精度高而测试精度低的过拟合问题。基于特征的信息交叉熵越小,贝叶斯分类错误率越小这一思想,提出一种基于交叉熵的高层降噪自动编码特征选择方法HDAECE(Feature selection algorithm for High-level Denoising Automatic Encoder based on Cross-Entropy)以简化自动编码网络结构,构建出泛化能力强的分类模型。从不同参数条件下对提出的算法进行了实验分析,与经典特征选择算法和深度神经网络进行了比较,实验结果证明高层特征的选择可以构建出分类性能更好的分类模型。(4)集成特征选择本质上是分类器集成和特征选择的融合,大多数集成特征选择方法由于没有合适的度量特征子集差异性的方法,对特征子集采用随机划分的策略,所选特征子集之间的差异性得不到保证,从而导致集成方法的性能不稳定。针对这一问题,提出了基于特征子集信息距离度量的集成特征选择的表达模型,设计了最小信息距离和SMID(Sum of Minimal Information Distance)这一特征子集之间信息差异性的度量标准,并在理论上证明了SMID指标是特征子集信息距离度量的上界。将SMID作为计算困难的特征子集信息距离度量的替代,设计出一种新的集成特征选择框架。实验中这一框架结合mRMR、CMIM和JMI算法生成具体的集成特征选择算法,在不同参数条件下的实验、与经典集成分类方法以及经典特征选择方法的比较实验验证了提出的集成特征选择框架的有效性和优越性。