论文部分内容阅读
回归模型中的方差估计是回归分析中的基本统计推断问题之一。良好的方差估计是回归系数的置信区间、假设检验以及变量选择中的调节参数的选择的基础。对于一般的线性模型,方差估计的传统估计方法分为两步:首先用AIC,BIC等准则进行模型的变量选择,而后用最小二乘法对所选变量的回归系数进行估计,用残差平方和除以剩余自由度得到方差的估计,一般称该种估计为最小二乘估计(以下简称LSE)。在典型的线性回归模型下,方差的最小二乘估计是一致最小方差无偏估计。但是,在超高维线性回归中,即协变量的个数远大于样本量的情况下,Fan et al.(2012)发现LSE将会产生很大的偏差,回归变量的维数越高偏差越大。为此,Fan et al.提出了一种基于2折交叉验证的方差的RCV(refitted cross validation)估计方法,即将数据的一半用于模型的变量选择,另一半用于回归系数和方差的估计,大量的模拟实验验证了RCV能有效纠正LSE方法的偏差。然而,我们发现RCV的方差估计主要依赖于变量选择的好坏,若开始用一半的数据选到的变量集不包含全部真实变量,则用另一半估计方差时效果就会差。虽然Fan et al.也提出可以采用多组2折交叉验证,以多组RCV的平均来提高方差估计的精度,但只要有一组变量选择的结果不好,多组RCV估计也不会好。因此,变量选择的好坏是方差估计的关键。事实上,在超高维线性回归中,变量是稀疏的,通常先用SIS方法选择变量个数到适当维度,再去参数估计。但RCV方法在使用SIS选变量时,往往丢掉一些真实变量,即使用多组RCV也没能改善变量选择的结果,导致多组RCV估计的结果也不能得到较大的改进。本文提出了用组块3×2交叉验证方法估计超高维线性回归模型的方差。组块3×2交叉验证是将数据等分为4分,任选两份作为训练集,其余两份为测试集,这样构成3组2折交叉验证。Wang et al.(2014)证明组块3×2交叉验证有良好的性质.具体的估计方法是,以组块3×2交叉验证的6次单独选变量的结果,按变量被选中的次数从大到小来选择最终的变量,确定变量集后再去估计方差。我们将该方法称为方差的投票-组块3×2交叉验证估计(简记为V-B3×2 CV估计)。本论文通过大量的模拟实验对比了V-B3×2CV方法和RCV方法,实验结果表明,VB3×2CV估计的偏度小于RCV估计,且V-B3×2 CV具有更小的方差,同时V-B3×2 CV方法对真实模型的大小不敏感。另外,对真实数据(取自于UCI数据库的白酒数据)也使用V-B3×2 CV方法进行了分析,进一步证明了V-B3×2CV方法的优良性。最后,本文从理论上证明了V-B3×2CV估计的渐近正态性。