论文部分内容阅读
随着科技的发展和人们收集数据能力的提高,许多领域产生了高维,海量或者具有某种复杂结构的数据。如何对这些数据进行处理受到越来越多的关注。特别是高维数据中,通常样本量远小于变量的维数,即n<<p,而真实模型具有稀疏性,变量选择则显得尤为重要,比如,基因数据中,样本量只有几十,而基因数目达到上千,与人们关心的某个疾病有关的基因往往是少数。目前,高维数据的稀疏建模是统计学和机器学习领域最热的研究问题之一。 Boosting方法是统计学和机器学习的研究热点之一,可将弱学习器(函数)提升为强学习器(函数)。Friedman(2000)基于统计观点说明了Boosting本质上是通过函数空间的梯度下降算法来拟合一个可加模型。Boosting方法对损失函数和弱学习器的选取有较强的灵活性,已被广泛应用于回归、分类问题,密度估计,生存分析,变量选择等领域。 目前高维统计建模中对回归变量进行降维主要有两类方法。其中一类是不设具体模型,基于充分降维的方法。多数充分降维方法是回归前的预处理的手段,并不建模,主要是寻找回归变量X的某些线性组合来代替X,而不损失对响应变量Y的预测信息。一类是通过正则化方法同时进行变量选择和模型建立。正则化变量选择方法大多基于具体模型的假定,如(广义)线性模型等;通过对回归系数施加惩罚,优化一个”损失+惩罚”的函数问题,得到参数的收缩估计。 本文根据Boosting和充分降维方法,正则化变量选择方法的特点,针对高维数据的预测和变量选择问题,提出了三种新的建模方法,分别记为DRBoosting,SDRBoosting,GSBoosting。与此同时,本文从理论和模拟的角度分析了几种方法的有效性和适用性。具体内容包括以下几点: 第一章,对Boosting算法,充分降维方法和正则化变量选择方法的相关文献作了较为系统的归纳整理。回顾了可加模型,函数梯度下降算法,并总结了分类,回归问题中的Boosting方法及其停止准则的选取方法。另外,本章中还总结了充分降维方法和变量选择方法,以及Boosting和变量选择之间的关系。 第二章,结合充分降维的思想改进了Boosting算法,提出了用于非稀疏高维建模的DRBoosting方法。即用充分降维方法得到X的线性组合参与Boosting的迭代,选取线性函数,样条函数,决策树等作为基学习器,最终得到一个非稀疏非参数可加模型。较L2Boosting相比,增强了模型的拟合能力。较先充分降维再回归的两阶段建模方法相比,DRBoosting算法对迭代过程中的充分降维方向估计的精度要求较低,增强了模型的预测能力和抗过拟合能力。本章证明了DRBoosting方法所得估计的收敛性,且针对DRBoosting方法的预测效果,计算有效性与其他方法进行了大量模拟比较,结果表明在高维强相关的非线性问题中,DRBoosting有明显的优势。基于降维提取成分的思想,本章推广了DRBoosting方法,提出了针对回归问题的基于局部相关性的Boosting方法(记为LCBoosting)和分类问题的降维Binomial Boosting方法(记为DRBBoosting),并对两种方法进行了模拟。 第三章,基于第二章提出的DRBoosting方法,提出了一种自适应的稀疏DRBoosting方法(SDRBoosting)。鉴于Boosting过程中对稀疏降维方向的精度要求较低,对充分降维方法得到的降维核矩阵进行稀疏SVD分解,根据数据自适应地提取原始变量的稀疏组合,参与到Boosting的迭代过程中。本章利用CV来选择停止次数和稀疏度参数,可以有效地进行变量选择,并建立稀疏线性模型和稀疏非参数模型。与DRBoosting相比,SDRBoosting提高了模型的可解释性;从提取稀疏成分的角度看,它介于L2Boosting和DRBoosting之间。从模拟的角度比较了三种方法的有效性和适用性。 第四章,根据正则化方法的思想,本章从相关性的角度构造了一类惩罚函数族。在Boosting的迭代过程中采用最小化带惩罚的损失函数,提出了一类用于预测和变量选择的稀疏Boosting方法(记为GSBoosting)。并且从理论上证明了在正交线性模型中,针对惩罚函数中不同的参数,GSBoosting所得估计分别等价于硬阈值,软阈值,Adaptive Lasso,岭回归,OLS等的系数估计。从模拟的角度,比较了GSBoosting,sparseBoosting和L2Boosting之间的预测和变量选择效果。