论文部分内容阅读
在社会调研、生物医学、经济管理等领域中,由于种种原因,常常会收集到大量的缺失数据,另一方面,在基因生命科学、金融数学等领域中,随着科技的发展可以获得的数据维数越来越高,又会频繁出现大量的高维数据。数据缺失的复杂性和数据的高维特性使得传统的统计方法不再适合,于是,如何在数据缺失或者高维的情况下进行有效的统计推断引起了很多学者的关注。对于缺失数据,在近80年的研究过程中取得了很多的研究成果,一系列处理缺失数据的有效方法被提出(见Rubin和Little(2002),Cao(2009)等)。对于高维数据,由于数据本质上往往都是稀疏数据,因而变量选择问题成为高维数据的核心问题之一,特别是近几年,高维数据的变量选择成为了统计界的热点之一.一系列有效的变量选择方法被提出(见Fan和Lv(2010),Candes和Tao(2007)等)。然而,对于缺失数据下统计推断方法以及高维数据下变量选择方法的研究还不够充分。为此,本文进一步研究了缺失数据下线性泛函、估计方程的统计推断问题、估计方程的冗余性问题以及高维数据下的变量选择问题。线性泛函包括变量的均值,高阶矩及混合高阶矩等,对它的统计推断是统计中重要的问题之一。第二章我们研究了数据缺失下线性泛函的估计问题。通常会用条件期望的估计来补充缺失数据,条件期望可能被假定为参数或者非参数结构,但是前者会产生模型误定风险,后者会产生非参数高维问题。由于在处理缺失数据下均值的估计中,Hu.Follmann和Qin(2010)提出了均值函数的可修复条件,通过构造多元函数把高维数据映射为一维数据,然后再进行非参数回归插补,这样既有效的避免非参数估计的高维问题,又保证了插补的回归函数的估计是无偏的。受此启发,我们提出线性泛函的可修复条件,用同样的办法得到缺失数据下响应变量和协变量的线性统计泛函的半参数降维推断,并考察了估计的相合性和渐近正态性,数值模拟也进一步验证了此方法的在偏和方差上的优势,从而有效地解决了一类统计推断问题。很多传统统计推断方法例如最小二乘法、最大似然等方法等都可以归结为一个基于估计方程的统计推断问题,因而对估计方程的统计推断具有一定的普适性,近20年来得到了越来越多的关注.但是在缺失数据下有关估计方程的文献不多见.值得一提的是Wang和Chen(2009)和Zhou, Wan和Wang(2008)两篇文章,前者用分布函数估计后抽样获得缺失数据,插补到估计方程后取平均值后再作为插补部分的估计方程,其实是估计函数的条件均值的非参数估计,而后者直接估计函数的条件均值非参数估计来插补估计函数,两者插补的估计函数都是无偏的,但是相应的经验似然比都不收敛于标准卡方,而是卡方变量的加权和,其中的权重是未知的,这会对找置信区间造成一定的困难.分析其原因,主要是他们采用了相同的利用插补估计函数的方法-部分插补法即数据完全的用原估计方程,数据缺失的用插补估计方程.为此,第三章的主要工作就是将逆概率加权以及推广的逆概率加权方法应用到缺失数据下估计方程的统计推断中,分析了相应估计的相合性和渐近正态性,似然比统计量的渐近性质,结果表明,两种估计的渐近结果基本一致;相应的经验似然比渐近卡方分布,避免了调整经验似然。模拟实验也进一步说明我们的方法的优势。在缺失数据下一般估计方程的经验似然参数估计中出现了一类奇异现象,即用选择概率函数估计加权要比用真实的选择概率函数好,甚至选择概率函数是已知的(Qin, Zhang和Leung(2009)),同时,由于在实际问题中,可以构造许多估计方程,因而随之而来的问题是增加估计方程是否就一定可以增加兴趣参数估计的效.为此,第四章我们提出了估计方程的冗余性和偏冗余性以及参数的冗余性的概念,考察了各种情形下经验似然估计的效,给出了冗余性的等价条件,并解释了上述奇异现象。模拟实验更进一步的说明估计方程的冗余性现象.高维数据的变量选择是当今统计研究的热门之一,主要方法就是基于线性模型惩罚类降维方法(Fan和Lv(2010))和基于线性规划类降维方法(Candes和Tao(2007)).前者主要基于线性模型然后再加上各种对参数的惩罚条件如lasso等,后者主要是基于统计相关性约束下求参数的范数最小化问题即dantzig估计等.由于后者在算法上的优势,自问世以来就受到很多关注,但是除非满足不可表达的条件,Dantzig估计模型选择不一致,另一方面,对于重要的和不重要的变量之间存在很强的相关性的时候,dantzig估计效果一般不好.为解决这两个问题,第五章提出对dantzig估计的进一步改进,一方面提出了基于岭和dantzig结合的岭dantzig估计,另一方而,提出基于bootstrap模型选择一致性的dantzig估计,基本思想就是重要的变量被选择的概率总是会大,基于重抽样数据选择出变量的交集是重要变量的概率较大.数值模拟和实证分析显示了我们所提出的两种方法的优势。