论文部分内容阅读
在过去三十年中,信息技术的飞速发展使得数据收集及存储的成本显著降低.因此,研究者在各个科学领域,例如基因学、经济学、信号和图像处理以及地球科学等领域,均面临着史无前例的高维数据信息.如何在大量冗余信息的干扰下,有效地从高维复杂数据中提取出有价值的信息成为了当今统计学家面临的一个巨大挑战.在高维回归分析中,该问题可以具体描述为,如何在大部分预测变量为非活跃预测变量(回归系数为零的变量)的前提下,准确且高效的识别所有对响应变量有影响的活跃预测变量(回归系数非零的预测变量).然而,在变量个数p远超样本大小n的高维回归模型中,许多经典的统计方法,例如最小二乘法以及极大似然估计方法等,由于维度的急速扩张均不再有效.为了应对高维数据的挑战,统计学家在过去二十年中对变量空间的降维方法进行了深入研究,其主要可以分为两类:一类是对损失函数施加惩罚的变量选择方法,而另一类是可以实现快速降维的特征筛选方法.变量选择方法通过求解最优化问题,可以同时实现对预测变量的选择以及对相应回归参数的估计.然而,变量维数的指数级增长会显著提高求解最优化问题的计算成本并令许多变量选择方法不再具备相合性.因此,为了进一步提高降维的计算效率和准确性,统计学家开展了对特征筛选方法的研究.特征筛选方法旨在将超高维数据的维度迅速降至合适大小,从而变量选择方法能够有效地运用在降维后的模型之上,达到变量选择与参数估计的目的.本文的主要研究对象为超高维线性模型下的特征筛选问题,并且针对此类问题做出了如下贡献:首先,本文完善了 Fan&Lv(2008)提出的确定独立筛选(sure inde-pendence screening)理论,证明了几类基于该理论的迭代特征筛选方法的确定筛选性(sure screening property).其次,本文提出了一个新的条件特征筛选方法,其可以充分利用之前研究得到的部分活跃预测变量的先验信息以提高筛选准确性.最后,受经典向前回归方法FR(forward regression)的启发,本文基于之前介绍的条件筛选方法,提出了新的迭代特征筛选方法,其不仅可以更为充分地利用先验信息,在先验信息不可用时,其同样可以运用数据驱动的条件集合有效地完成变量空间的降维.本文的具体研究工作可以概括如下:1.自Fan&Lv(2008)提出具有开创性的确定独立筛选方法SIS(sure indepen-dence screening)以来,特征筛选方法的研究得到了迅猛发展.SIS 通过对预测变量与响应变量间的边际相关系数进行排序,从而实现了对变量空间的迅速降维.SIS在过去十年中被广泛应用到各个科学领域,其成功主要得益于两个因素:一是相较于求解超大规模的最优化问题,SIS具有更低的计算成本.更重要的是,SIS在适当的假设下具有确定筛选性,即其所选模型可以以趋于1的概率涵盖所有活跃预测变量.Fan&Lv(2008)指出,SIS的确定筛选性依赖于边际相关性假设,其要求所有活跃预测变量与响应变量间的边际相关系数均不接近于零.然而,由于预测变量间的相关性,该假设在高维模型中时常不成立,从而导致了 SIS在此类情形下的不佳表现.为了解决该问题,Fan&Lv(2008)提出了 ISIS(iteratively sure independence screening)方法,其通过对残差向量迭代运用SIS方法,降低了预测变量间相关性对筛选结果的影响.Fan et al.(2009)进一步改善了 ISIS方法,并将其推广至广义线性模型,提出了基于边际损失函数的 Van-ISIS(vanilla ISIS)方法.尽管ISIS与Van-ISIS方法在数值模拟以及实际应用中均有亮眼表现,但其确定筛选性在过去十年中一直没有得到证明.确定筛选性是由Fan&Lv(2008)提出的用以衡量特征筛选方法的重要标准之一,其确保了之后的变量选择方法可以大概率作用在全部活跃预测变量之上.本文在合理的假设下,证明了三类迭代筛选方法的确定筛选性,其中ISIS和Van-ISIS均可看作此三类方法的特殊情况,从而其确定筛选性可由相应结果直接得到.本文的结果填补了长达十余年的理论空白,为ISIS和Van-ISIS今后的广泛应用提供了更为坚实的理论支持.同时,FR方法同样可以看作此三类方法的特殊情况之一.与Wang(2009)中对FR确定筛选性的证明相比,我们在更具一般性的条件下得到了比Wang(2009)中结论更强的结果.2.在科学研究中,学者们通常可以通过之前的研究成果得知某些预测变量为活跃预测变量,对响应变量有显著影响.如何充分利用此类有关活跃预测变量的先验信息以进一步提高筛选的准确性具有极高的研究价值.为了利用此类先验信息,Barut et al.(2016)提出 了条件特征筛选方法 CSIS(conditional sure independence screening),其基于已知活跃预测变量,通过对剩余预测变量关于响应变量的条件贡献进行排序从而实现变量空间的降维.Barut et al.(2016)在条件线性协方差假设下证明了 CSIS方法的确定筛选性,该假设要求剩余活跃预测变量与响应变量关于已知活跃预测变量的条件线性协方差不接近于零.然而,与边际相关性假设类似,高维模型中预测变量间的相关性同样会导致条件线性协方差假设不再成立,进而显著降低CSIS方法的筛选准确性.为了改善该情况,基于 Wang&Leng(2016)提出的 HOLP(high dimensional ordinary least squares projection)方法,本文提出了一个新的条件特征筛选方法,称为最小二乘投影条件筛选方法,并简记为 COLP(conditional screening via ordinary least squares projection).HOLP为线性模型下的高效特征筛选方法,其应用设计矩阵的Moore-Penrose逆矩阵构造对角占优矩阵对回归参数进行估计,并以此为基础进行变量筛选.然而,HOLP无法利用有关活跃预测变量的先验信息,并且其确定筛选性依赖于回归参数β的L2范数的上界,即当||β||足够大时,HOLP的确定筛选性可能不再成立.COLP方法首先将设计矩阵投影到已知活跃预测变量列空间的正交补空间上,再通过投影后设计矩阵的Moore-Penrose逆构造对角占优矩阵对剩余回归参数进行估计,并根据估计值进行特征筛选.通过投影,COLP可以消除已知活跃变量的系数对剩余参数估计的影响,从而提高估计和筛选的准确性.我们在不依赖条件线性协方差假设及||β||上界条件的情况下,证明了 COLP方法的确定筛选性.因此,当某些已知活跃预测变量回归系数绝对值较大或者某些剩余活跃预测变量的条件线性协方差接近于零时,COLP仍可以以趋近于1的概率识别所有剩余活跃变量.通过与CSIS等筛选方法的对比,COLP的有效性在大量数值模拟中得到了充分验证.3.从数值模拟中可以看到,COLP方法在先验信息包含所有显著活跃预测变量(回归系数绝对值较大的预测变量)时能够达到最佳表现.但在实际应用当中,研究者通常无法获得完整包含所有显著活跃预测变量的先验信息.因此,尽管COLP可以消除已知活跃变量的回归系数在剩余参数估计中的影响,但剩余显著活跃预测变量的较大回归系数仍可以对剩余变量的筛选造成不可忽视的负面影响.为了进一步消除剩余显著活跃预测变量系数的影响,基于FR和COLP方法,本文提出了新的迭代特征筛选方法,称为最小二乘投影向前筛选方法,并简记为FOLP(forward screening via ordinary least squares projection).FOLP通过迭代运用COLP方法,可以逐步消除被选中的活跃预测变量的回归系数在剩余参数估计中的影响.与FR方法类似,FOLP通过对比备选预测变量的残差平方和(RSS)将备选变量逐个加入到已选模型当中,避免了复杂的参数选择过程.不同的是,FR在每一步中需要计算所有剩余预测变量的RSS,而FOLP方法每一步只需比较两个备选预测变量,从而显著地降低了计算成本.更重要的是,当先验信息不可用时,FOLP同样可以利用数据驱动的条件变量集合进行特征筛选.无论先验信息是否可用,FOLP方法在大量数值模拟中均有亮眼的表现.另外,FOLP方法的有效性在一个急性白血病分类问题中同样得到了印证.结合朴素贝叶斯准则(naive Bayes rule),FOLP在训练数据以及测试数据中均未产生任何分类错误.