论文部分内容阅读
大数据时代的到来和信息技术的发展产生了大量数据,机器学习以及近年来的深度学习等技术是探索数据的重要手段和有力武器,其关键点在于特征的处理和提取上。特征工程是机器学习重要预备阶段,数据特征对模型学习的效果至关重要。数据中往往存在着对数据分析无关或者多余的特征,存在着冗余信息,这些冗余信息和噪声,不仅会影响分析数据的结果精度,还会增加较多的计算量。特征降维可精简数据结构,增加模型的可解释性,减少模型计算量,并提升模型学习效果。特征降维可分为两个大的方面:特征抽取和特征选择。本文旨在对特征降维算法进行改进优化和推广,提高特征降维的有效性,使其适用性更强。本文对特征降维中的特征抽取算法主成分分析(Principal component analysis,PCA)和特征选择算法中基于关联性的特征选择算法(Correlation-based Feature Selection algorithm,CFS),利用最大信息系数(Maximum information coefficient,MIC)的优势分别对这两者进行改进分析研究。本文主要研究工作如下:第一,针对主成分分析中协方差矩阵只能衡量变量之间线性关系的局限和要求数据服从高斯分布的特点,提出基于Yeo-Johnson变换和MIC的PCA特征抽取算法(YJ-MICPCA)。首先经过转化数据满足PCA中高斯分布的假设,并将PCA中数据之间存在的线性关系假设推广到非线性;然后通过模拟数据和实验在UCI机器学习仓库中公开数据集从多方面验证了算法YJ-MICPCA的有效性,结果表明YJ-MICPCA较传统PCA有更好的效果;最后将YJ-MICPCA和其他常用非线性特征抽取算法比较,结果表明YJ-MICPCA也具有一定优势。第二,针对CFS在回归任务中线性相关系数只能度量变量间线性相关性的局限;以及分类任务中对称不确定性度量(SU)的分母过大,分子中互信息对于连续变量不容易计算且结果受离散化方式的影响的不足,提出一种基于MIC的CFS特征选择算法(MICCFS)。首先统一回归和分类中的变量间相关性的度量方式,运用MIC度量,再依据评价函数进行特征子集搜索;然后分别就回归任务和分类任务在UCI机器学习仓库中公开数据集上从多方面验证对比MICCFS和CFS的有效性,结果表明MICCFS较优;最后分类中将MICCFS与其他常用特征选择算法比较,结果表明总体上MICCFS也有一定优势。