半参EV模型和缺失数据下估计方程的经验似然推断

来源 :山东大学 | 被引量 : 3次 | 上传用户:alpine
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种非参数统计方法,经验似然自Owen(1988)年提出以来已经得到越来越多的关注。它已经广泛用于构造兴趣参数和光滑函数的置信区域。许多文献表明相比于正态逼近方法,经验似然有许多的优势。比如,由经验似然构造的置信区域其形状完全由数据决定,而且还具有域保持性和变换不变性。如今,作为一种重要的非参数统计方法,经验似然已经成为非常有用的统计推断工具。许多学者已经把它应用到线性模型,非参模型及半参模型中。   然而,在许多的应用领域,比如工农业生产、社会调查、经济学、生物医学和流行病学等领域,由于各种各样的原因我们很难获得一些变量的精确测量或全部测量,因此会经常遇到诸如测量误差数据、缺失数据和删失数据等复杂的数据。如何处理这些复杂数据进而进行有效的统计推断已经成为当今统计界的研究热点之一。本学位论文将研究测量误差数据和缺失数据下的一些推断,那就是我们将运用经验似然这个工具来研究两类有测量误差的半参模型和有缺失数据的估计方程,我们所做的工作进一步拓宽了经验似然的应用领域。   由于不能直接对感兴趣的变量进行观测,而只能获得它的替代值。一个简单、经典的测量误差模型或者变量误差模型(EV)模型假设W=X+U,其中X是兴趣变量,W是变量X在与之独立的可加测量误差U下的一个替代值,满足E(U)=0。对于简单的线性EV模型及非线性EV模型人们已经研究的很多了。随着应用技术的发展,半参模型由于其灵活性和可解释性也得到了很好的研究及广泛的应用。在半参模型中,变系数部分线性模型(VCPLM)和可加部分线性模型(APLM)是两类很常用的模型,这两类模型都既有效地避免了非参模型的“维数祸根”问题(“curse ofdimensionality”)又都具有线性模型的可解释能力。因此在本学位论文中,我们仅在经典测量误差模型下研究变系数部分线性模型(VCPLM)和可加部分线性模型(APLM)的推断。具体地讲,在第二章我们将运用经验似然方法对变系数部分线性EV模型的参数和非参部分进行推断,对可加部分线性EV模型的经验似然推断放到第三章。   半参数变系数部分线性EV模型有如下的形式:   其中Y是响应变量,T,X和Z是回归变量,β=(β1,…,βp)’是p维的未知参数,α(T)=(α1(T),…,αq(T))’是q维的未知函数向量,ε是在给定X,Z,T的条件下零均值的随机误差。U是测量误差,其均值为零,且与(X,Z,T)独立。You和Chen(2006)研究该模型,对参数分量部分提出了修正的截面最小二乘估计,对非参部分提出了局部多项式估计,并证明了参数估计具有相合性和渐近正态性,非参估计达到了最优的收敛速度。但是他们没有考虑参数和非参部分置信区域的构造。如果我们采用正态逼近方法构造置信区域,You和Chen(2006)的结果告诉我们由于参数估计的方差很复杂,因而这样做很不方便。于是本学位论文将采用经验似然的方法对参数部分和非参部分分别构造他们的置信区域。我们首先给出参数的一个估计函数,基于该估计函数,我们定义出未知参数的经验对数似然比统计量log(R(β)),并在一定条件下证明统计量-2log(R(β))渐近趋于标准卡方分布,因此可以用它来构造置信区域。我们同时也证明了未知参数β的极大经验似然估计β是渐近正态的。基于极大经验似然估计β,我们又提出了对未知函数α(t)基于残差调整的下辅助随机变量,并定义α(t)相应的残差调整经验对数似然比函数l(α(t)),证明了在一定条件之下-2l(α(t))的极限分布是标准卡方。   类似于第二章的思想,我们在第三章研究可加部分线性EV模型的经验似然推断。可加部分线性EV模型具有下面的形式:其中Y是响应变量,X和Z=(Z1,…,ZD)’分别是RP和RD上的协变量,f1,…,FD是未知函数,β=(β1,…,βp)’是p维的未知参数,ε是随机误差,满足在给定X和Z条件下均值为零。U是均值为零的测量误差,并且与(X,Z,Y)独立。为简单起见,我们研究D=2的情况。为保证非参函数的可识别性,假设E{f1(Z1))=E{f2(Z2))=0,同时假设X和Y已中心化。通过对衰减的修正(correction-for-attenuation),我们得到了未知参数基于纠衰(corrected-attenuation)下的辅助随机变量作为其估计函数,然后定义相应的基于纠衰的经验似然比函数。在没有对非参函数要求欠光滑(undersmoothing)的条件下,我们证明了相应统计量极限分布是标准卡方分布,因此基于该统计量很容易得到未知参数的置信区域。模拟结果表明:通过比较置信区域的覆盖概率和平均长度,我们提出的方法要优于Liang,Thurston,Duppert,Apanasovich和Hauser(2008)提出的截面最小二乘方法。基于参数β的经验似然比统计量,很容易得到它的极大经验似然估计β,进而得到非参函数修正的后拟(backfitting)估计.因此,对非参函数我们又给出了其残差调整的经验对数似然比统计量,并证明它仍具有非参的Wilk’s定理。值得一提的是在对非参函数f1(z1)进行推断时并不需要精确估计非参函数f2(z2)在任意点的值,只需知道f2(z2)修正的后拟估计在样本观测点处的值即可。   在第四章我们研究缺失数据下的估计方程。在Zhou,Wan和Wang(2008)的文章中,他们基于观测到的数据用估计函数的非参估计进行借补,定义了未知参数新的估计函数。由于非参估计的插入,导致估计函数是有偏的,基于该估计函数的经验似然比不再收敛于标准卡方,而是卡方变量的加权和,其中的权重是未知的(具体结果见Zhou,Wan和Wang(2008)文章中的定理3)。因此为了得到标准卡方分布,需要进行调整,从而需要对未知的调整因子进行有效的估计。另外,非参估计时窗宽选择需要欠光滑条件。这些都使得在构造未知参数置信区域的时候使用起来很不方便。受到Xue(2009a)和Xue(2009b)文章的启发,我们提出了用加权修正的方法来减非参估计的偏,定义新的估计函数,证明基于新的估计函数下未知参数的经验对数似然比函数渐近于标准卡方,这一结果不同于Zhou,Wan和Wang(2008)得到的结果。因此我们的方法避免了对未知调整因子的估计,而且可以用基于数据(data-driven)的常用窗宽选择的方法来选择最优窗宽。数值模拟进一步验证了我们的方法。
其他文献
支持向量机(SVM)以及由此衍生的C-SVM,ν-SVM及基于核函数的学习是机器学习中基本的,应用最广泛的理论和方法。对于包含不确定信息的应用场合,例如在自然语言处理,推荐系统,