论文部分内容阅读
在回归建模中,我们主要面临两类问题:变量选择和变量筛选.变量选择过程已被广泛应用于变量是固定维数或增长型维数(P随着n幂增长)的数据中,挑选出稀疏性参数同时对非零参数进行统计推断.变量筛选是在超高维回归数据(P随着n指数增长)下,筛选出重要协变量的过程.在实际问题处理中,针对超高维数据的回归建模,我们先通过变量筛选过程筛选出重要变量,进而利用变量选择的方法进行模型拟合.针对这两类问题,本文前两章讨论了两个变量选择的过程,后两章提出了两个变量筛选的方法.第一章介绍了在增长型非条件矩模型中,利用惩罚指数倾斜似然进行参数估计和稀疏性恢复的过程.并在理论上建立了指数倾斜似然估计量的相合性和oracle性质,并证明了受限制的惩罚指数倾斜似然比统计量服从渐进卡方分布.在模型假定错误的情形下,我们在理论上证明了惩罚指数倾斜似然的大样本性质及其稳健性.除此之外,我们研究了选择的相合性和高阶性质.最后通过模拟研究和实例分析证明了提出的方法的有效性.在第二章,我们考虑了删失相应变量和增长型协变量数据下的变量选择问题.我们首先构造了此类数据下所用的估计方程,然后结合折叠凹惩罚函数提出惩罚广义经验似然推断过程.在理论上我们建立了惩罚广义经验似然估计量的相合性和oracle性质,以及惩罚广义经验似然比统计量服从渐进卡方分布.在数值模拟中,对加权惩罚广义经验似然利用迭代的一步估计算法进行计算,并在理论上讨论了这个算法的收敛性质.通过数值分析,我们检验了提出方法的有效性.在超高维数据下,第三章介绍了一个新的特征筛选的方法.通过引入切片技术,我们把这个方法称之为融合均值方差特征筛选,并且这个筛选过程拥有以下优点:(i)稳健性,是因为我们并没有假定任何形式的回归模型;(ii)这个方法可以处理各种类型的相应变量,包括离散型数据,分类数据以及连续型数据;(iii)当协变量存在强相关性,协变量或误差服从重尾分布时,这个方法依然表现出很好的筛选结果.在一定的正则条件下,我们建立了 sure screening和rank consistency性质,并通过模拟数据和实例分析验证了我们的方法.在第四章,我们提出了 Spearman秩相关筛选的过程.在完整和删失相应变量下,我们分别提出了两个不同的统计量.跟Pearson相关系数不同的是,Spearman秩相关系数不仅衡量了两个变量的线性相关性,也衡量了非线性相关的大小.它有以下优点:(i)这个筛选方法跟融合均值方差筛选一样也具有稳健性,是因为没有假定任何回归模型;(ii)理论上我们在很弱的正则条件下建立了筛选方法的sure screening和rank consistency性质;(iii)在协变量存在强相关性,协变量或误差服从重尾分布下,Spearman秩相关筛选依然表现出很好的筛选结果;(iv)Spearman秩相关统计量使用的示性函数具有有界性和变量单调变换不变性.通过应用到模拟和实例数据我们验证了方法的有效性.