论文部分内容阅读
数据缺失现象在现实生活中经常发生,如可靠性寿命试验、市场调查、医药追踪试验等领域往往出现大量缺失数据.产生缺失数据的原因很多,可以分为人为因素和客观因素两类,如有人不愿意回答(收入和年龄等)比较隐私的问题,有的数据由于技术原因无法观察到,或者由于费用的考虑而放弃取样等,所以缺失数据问题在实际应用中越来越引起人们的普遍关注.在有数据缺失的情况下,通常的统计方法往往不能直接应用,需要对数据进行必要的处理,处理带有缺失数据的不完全样本时常常需要对缺失值进行填补,继而得到“完全样本”,再按通常的统计方法进行推断,缺失数据情形的统计推断是当今统计界的一个热门研究领域(Little and Rubin, Statistical Analysis with Missing Data[M], New York: JohnWiley and Sons, 2002).在有数据缺失的回归模型的研究中,通常使用的填补方法有线性回归填补法,非参数回归填补法和半参数回归填补法. Wang (Statistical estimation in partial linearmodels with covariate data missing at random [J]. Ann Inst Stat Math, 2009, 61: 47-84)在随机设计及协变量有缺失情形基于模型校正法和加权法研究了部分线性模型参数分量和非参数分量的估计及其渐近性质;在随机设计及响应变量有缺失情形, Wang et al. (Semiparametricregression analysis with missing response at random [J]. J Amer Statist Assoc, 2004, 99: 334-345)研究了部分线性模型响应变量均值的经验似然置信区间的构造;在随机设计及响应变量有缺失情形,Wang and Rao (Empirical likelihood-based inference under imputation for missingresponse data[J]. Ann Statist, 2002, 30(3): 896-924)研究了非参数回归模型响应变量均值的经验似然置信区间的构造; Wang and Sun (Estimation in partially linear models with missingresponses at random[J]. J Multivariate Anal, 2007, 98: 1470-1493)分别基于半参数回归填补法和逆概率权方法得到了部分线性模型参数分量和非参数分量的估计并研究了估计的渐近性质.本文在第二章中研究了随机设计及响应变量有缺失情形的部分线性模型参数分量和非参数分量的估计及其渐近正态性,得到如下结果:(1)基于一种新的逆概率权方法定义了部分线性模型参数分量的估计,证明了此估计的渐近正态性,得到的渐近方差比Wang and Sun (Estimation in partially linear models withmissing responses at random[J]. J Multivariate Anal, 2007, 98: 1470-1493)更简洁,并且利用此结果构造了参数分量的基于正态逼近的渐近置信区间(域).(2)基于一种新的逆概率权方法首次定义了部分线性模型非参数分量的估计,证明了此估计的渐近正态性,利用此结果构造了非参数分量的基于正态逼近的渐近置信区间(域).(3)减弱了Wang and Sun (Estimation in partially linear models with missing responses atrandom[J]. J Multivariate Anal, 2007, 98: 1470-1493)的部分条件,扩大了模型和方法的适用范围.本文在第三章中首次利用逆概率权填补法得到的“完全样本”构造了部分线性模型参数分量和非参数分量的经验似然比统计量,证明了经验似然比统计量的极限分布为卡方分布,利用此结果构造了参数分量和非参数分量的经验似然置信区间(域).本文在第四章中首次利用逆概率权填补法得到的“完全样本”构造了非参数回归模型响应变量均值的经验似然比统计量,证明了经验似然比统计量的极限分布为卡方分布,利用此结果构造了响应变量均值的经验似然置信区间(域).我们在构造上述经验似然置信区间(域)时均不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.注意到,基于通常回归填补后的“完全样本”定义的经验似然比统计量的极限分布为加权卡方分布,见Wang et al. (Semiparametric regression analysiswith missing response at random[J]. J Amer Statist Assoc, 2004, 99: 334-345), Wang and Rao(Empirical likelihood-based inference in linear models with missing data[J]. Scandinavian Journalof Statistics, 2002, 29(2): 563-576; Empirical likelihood-based inference under imputation formissing response data[J]. Ann Statist, 2002, 30(3): 896-924),Wang and Rao( Empirical likelihood-based inference under imputation for missing response data[J]. Ann Statist, 2002, 30(3): 896-924).故利用通常的回归填补后的“完全样本”构造部分线性模型参数分量和非参数分量以及非参数回归模型响应变量均值的经验似然置信区间(域)时需要调整,而调整系数需要估计,这会降低经验似然置信区间(域)的精度.本文的特色体现在以下三个方面:1.在研究随机设计及响应变量有缺失情形的部分线性模型的统计推断时,基于一种新的逆概率权填补法得到了部分线性模型参数分量和非参数分量的估计,并证明了估计的渐近正态性,利用此结果分别构造了参数分量和非参数分量的基于正态逼近的渐近置信区间(域),同时将Wang and Sun (Estimation in partially linear models with missing responses atrandom[J]. J Multivariate Anal, 2007, 98: 1470-1493)中的条件减弱,扩大了模型和方法的适用范围.2.首次讨论随机设计及响应变量有缺失的部分线性模型的参数分量和非参数分量的经验似然置信区间(域)的构造时,采用了逆概率权填补法,证明了基于此填补法得到的参数分量和非参数分量的经验似然比统计量的极限分布为卡方分布,利用此结果构造参数分量和非参数分量的经验似然置信区间(域)时不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.3.讨论缺失数据下非参数回归模型响应变量均值的经验似然置信区间(域)的构造时,首次采用了逆概率权填补法,证明了基于此填补法得到响应变量均值的经验似然比统计量的极限分布为卡方分布,利用此结果构造响应变量均值的经验似然置信区间(域)时不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.