响应变量有缺失时两类统计模型的统计推断

来源 :广西师范大学 | 被引量 : 0次 | 上传用户:cc023061227
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据缺失现象在现实生活中经常发生,如可靠性寿命试验、市场调查、医药追踪试验等领域往往出现大量缺失数据.产生缺失数据的原因很多,可以分为人为因素和客观因素两类,如有人不愿意回答(收入和年龄等)比较隐私的问题,有的数据由于技术原因无法观察到,或者由于费用的考虑而放弃取样等,所以缺失数据问题在实际应用中越来越引起人们的普遍关注.在有数据缺失的情况下,通常的统计方法往往不能直接应用,需要对数据进行必要的处理,处理带有缺失数据的不完全样本时常常需要对缺失值进行填补,继而得到“完全样本”,再按通常的统计方法进行推断,缺失数据情形的统计推断是当今统计界的一个热门研究领域(Little and Rubin, Statistical Analysis with Missing Data[M], New York: JohnWiley and Sons, 2002).在有数据缺失的回归模型的研究中,通常使用的填补方法有线性回归填补法,非参数回归填补法和半参数回归填补法. Wang (Statistical estimation in partial linearmodels with covariate data missing at random [J]. Ann Inst Stat Math, 2009, 61: 47-84)在随机设计及协变量有缺失情形基于模型校正法和加权法研究了部分线性模型参数分量和非参数分量的估计及其渐近性质;在随机设计及响应变量有缺失情形, Wang et al. (Semiparametricregression analysis with missing response at random [J]. J Amer Statist Assoc, 2004, 99: 334-345)研究了部分线性模型响应变量均值的经验似然置信区间的构造;在随机设计及响应变量有缺失情形,Wang and Rao (Empirical likelihood-based inference under imputation for missingresponse data[J]. Ann Statist, 2002, 30(3): 896-924)研究了非参数回归模型响应变量均值的经验似然置信区间的构造; Wang and Sun (Estimation in partially linear models with missingresponses at random[J]. J Multivariate Anal, 2007, 98: 1470-1493)分别基于半参数回归填补法和逆概率权方法得到了部分线性模型参数分量和非参数分量的估计并研究了估计的渐近性质.本文在第二章中研究了随机设计及响应变量有缺失情形的部分线性模型参数分量和非参数分量的估计及其渐近正态性,得到如下结果:(1)基于一种新的逆概率权方法定义了部分线性模型参数分量的估计,证明了此估计的渐近正态性,得到的渐近方差比Wang and Sun (Estimation in partially linear models withmissing responses at random[J]. J Multivariate Anal, 2007, 98: 1470-1493)更简洁,并且利用此结果构造了参数分量的基于正态逼近的渐近置信区间(域).(2)基于一种新的逆概率权方法首次定义了部分线性模型非参数分量的估计,证明了此估计的渐近正态性,利用此结果构造了非参数分量的基于正态逼近的渐近置信区间(域).(3)减弱了Wang and Sun (Estimation in partially linear models with missing responses atrandom[J]. J Multivariate Anal, 2007, 98: 1470-1493)的部分条件,扩大了模型和方法的适用范围.本文在第三章中首次利用逆概率权填补法得到的“完全样本”构造了部分线性模型参数分量和非参数分量的经验似然比统计量,证明了经验似然比统计量的极限分布为卡方分布,利用此结果构造了参数分量和非参数分量的经验似然置信区间(域).本文在第四章中首次利用逆概率权填补法得到的“完全样本”构造了非参数回归模型响应变量均值的经验似然比统计量,证明了经验似然比统计量的极限分布为卡方分布,利用此结果构造了响应变量均值的经验似然置信区间(域).我们在构造上述经验似然置信区间(域)时均不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.注意到,基于通常回归填补后的“完全样本”定义的经验似然比统计量的极限分布为加权卡方分布,见Wang et al. (Semiparametric regression analysiswith missing response at random[J]. J Amer Statist Assoc, 2004, 99: 334-345), Wang and Rao(Empirical likelihood-based inference in linear models with missing data[J]. Scandinavian Journalof Statistics, 2002, 29(2): 563-576; Empirical likelihood-based inference under imputation formissing response data[J]. Ann Statist, 2002, 30(3): 896-924),Wang and Rao( Empirical likelihood-based inference under imputation for missing response data[J]. Ann Statist, 2002, 30(3): 896-924).故利用通常的回归填补后的“完全样本”构造部分线性模型参数分量和非参数分量以及非参数回归模型响应变量均值的经验似然置信区间(域)时需要调整,而调整系数需要估计,这会降低经验似然置信区间(域)的精度.本文的特色体现在以下三个方面:1.在研究随机设计及响应变量有缺失情形的部分线性模型的统计推断时,基于一种新的逆概率权填补法得到了部分线性模型参数分量和非参数分量的估计,并证明了估计的渐近正态性,利用此结果分别构造了参数分量和非参数分量的基于正态逼近的渐近置信区间(域),同时将Wang and Sun (Estimation in partially linear models with missing responses atrandom[J]. J Multivariate Anal, 2007, 98: 1470-1493)中的条件减弱,扩大了模型和方法的适用范围.2.首次讨论随机设计及响应变量有缺失的部分线性模型的参数分量和非参数分量的经验似然置信区间(域)的构造时,采用了逆概率权填补法,证明了基于此填补法得到的参数分量和非参数分量的经验似然比统计量的极限分布为卡方分布,利用此结果构造参数分量和非参数分量的经验似然置信区间(域)时不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.3.讨论缺失数据下非参数回归模型响应变量均值的经验似然置信区间(域)的构造时,首次采用了逆概率权填补法,证明了基于此填补法得到响应变量均值的经验似然比统计量的极限分布为卡方分布,利用此结果构造响应变量均值的经验似然置信区间(域)时不需要调整,从而可以提高经验似然置信区间(域)的覆盖精度.
其他文献
作为常见的自然灾害之一,地震对我国民生影响很大。我国是世界上地震活动最强烈和地震灾害最严重的国家之一。近几年来,我国大陆地区因震灾事件受灾群众达百万人之众,经济损
小波分析在科学与工程计算中有重要作用,使得基于小波算法的微积分方程数值解法也得到广泛的发展和应用。在大多数实际问题中,所求解的问题都是定义在有限区间内,因此,区间小
蚁群算法是一种模拟生物界中蚂蚁寻找食物源行为的算法,具有仿生性以及较强的局部搜索能力,除此之外还易与其他仿生优化算法相结合,有正反馈、鲁棒性等特点,这些特点在求解优
符号对码是随着信息技术发展而产生的一种新型纠错码,它能对符号对读信道中信息进行有效地保护。自符号对码被提出以来,符号对码的构造、解码算法以及码容量的上下界得到了很多
在风险相依的条件下,对于破产概率问题的研究目前已经成为风险理论的一个重要研究方向.本文对以下两类相依风险的破产问题进行了研究:第一,考虑了一类离散相依的风险模型,该模型假设主索赔以一定的概率引起两种副索赔,而第一种副索赔有可能延迟发生.通过引入一个辅助模型,对破产前盈余和破产时赤字进行分析得到了其联合分布递推公式、初始盈余为0时的最终破产概率表达式,并结合保险实例进行了数值模拟.第二,考虑了一类索