论文部分内容阅读
随着实验手段的不断进步,数据获取愈发容易,使得数据量虽然巨大,但是结构复杂。庞大的数据蕴含丰富的信息,而结构复杂的数据又对统计方法提出了更高要求。特别是当下常见的高维纵向数据,既蕴含丰富信息,又结构复杂。此外高维纵向数据中经常出现删失、厚尾、带有组结构、协变量受污染等情况,处理难度更大。因此对高维纵向数据更进一步的发展的统计方法以有效提取信息具有重要的理论与现实意义。高维纵向数据自身的特点带来处理与模型推导、实际计算方面的困难,更进一步的,当高维纵向数据中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况时,每种情况均会带来额外的处理困难。具体来讲,高维纵向数据自身特点带来的困难包括但不限于:高维纵向数据的维数高于样本量,因此低维方法,如最小二乘、极大似然、拟似然、伪似然与估计方程等传统方法不再适用,需要对这些传统方法进行改进以解决维数高于样本量的问题,因而带来计算和大样本性质证明方面的困难,且由于高维纵向数据中个体内存在相关性,处理独立数据的方法此时并不适合,因而需要加入处理组内相关结构的方法以提升估计效率。高维纵向数据中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况时,带来的额外困难包括但不限于:分位数模型损失函数原点奇异,因而在推导大样本性质时如何避免遇到需要在原点处求导的困难;带有非参数项的模型需要样条近似或局部多项式估计,但这并不等价于将非参数模型完全变为参数模型,因而如何证明参数乃至非参数部分的相合性的困难;高维纵向数据中带有删失时需要进行加权从而进行纠偏,但如何加权既可纠偏又不损失纵向数据组结构的信息的困难;厚尾数据或协变量受污染的数据需要稳健估计,则如何给出双稳健估计方法的困难;协变量带有组结构时需要同时进行组间与组内相合的变量筛选等问题,但如何给出变量筛选方法,如何证明组间组内变量筛选相合性的困难等等。需要指出的是,当高维纵向数据模型中出现删失、厚尾、协变量受污染、协变量间存在组结构等情况中的一种或某几种时,不同情况组合之间,估计方法的给出、大样本性质的推导乃至计算估计量的算法的给出以及程序的设计均不能相互平推,在每种情况组合之下,估计方法的给出、大样本性质的推导、算法与程序的设计均是困难。针对以上问题,总体而言,本文给出了超高维纵向数据中存在厚尾且协变量受污染的高维纵向数据模型;超高维纵向数据中存在右删失以及模型中存在组结构的高维纵向数据均值、分位数、部分线性均值、部分线性分位数模型的估计与变量筛选方法,得到了估计量的大样本性质,并给出了计算估计量的相应算法,并进一步通过数据模拟和实证分析佐证所提方法的优越性。具体而言,针对超高维纵向数据中存在厚尾且协变量受污染的问题,研究了超高维纵向数据分位数回归模型,给出了加权自适应Lasso(WAR-Lasso)方法,解决了已有方法不能同时处理纵向数据组内相关性、分位数损失函数在原点处奇异且协变量受污染的问题,且WAR-Lasso方法具有双稳健性、变量筛选的相合性、非零参数估计的相合性。针对超高维纵向数据中存在右删失以及模型中存在组结构的问题,研究了带有组结构的超高维纵向数据加速失效模型(AFT模型),提出了二次推断函数自适应组桥(QA-gbridge)方法,解决了已有方法不能同时对于超高维纵向数据AFT模型中进行加权调整且不损失纵向数据个体内相关结构信息并同时进行组间组内(bi-level)变量筛选的问题,并提高估计效率,给出的相应算法计算速度快。QA-gbridge方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性。针对超高维纵向数据中存在右删失、模型中存在组结构且含有非参数项的问题,研究了带有组结构的超高维纵向数据部分线性AFT模型,提出了纵向数据组桥光滑门限加权广义估计方程(LDGBW-SGEE)方法,解决了已有方法不能同时处理右删失和模型内存在非参数项并对参数的组结构进行bi-level变量筛选的问题。LDGBW-SGEE方法具有参数部分的bi-level变量筛选相合性,参数估计相合性,非参数部分估计的相合性,以及渐近正态性。针对超高维纵向数据中存在右删失、响应变量厚尾以及参数中存在组结构的问题,研究了超高维纵向数据分位数AFT模型,提出了自适应组桥惩罚分位数二次推断函数(QA-quan-gbridge)方法,解决了已有方法不能对于超高维纵向数据分位数AFT模型中存在厚尾数据并同时进行bi-level变量筛选并处理纵向数据个体内相关结构的问题。QA-quan-gbridge方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性。针对超高维纵向数据中存在右删失、响应变量厚尾以及参数中存在组结构且模型中存在非参数项的问题,研究了超高维纵向数据分位数部分线性AFT模型,给出了分位数纵向数据组桥光滑门限加权广义估计方程(QLDGBW-SGEE)方法,解决了已有光滑门限广义估计方程方法不考虑组结构的问题,且已有方法不能同时处理非参数项,分位数损失函数在原点处奇异并进行bi-level变量筛选的问题。QLDGBW-SGEE方法具有bi-level变量筛选相合性,参数估计相合性以及渐近正态性以及非参数部分估计的相合性。