论文部分内容阅读
缺失数据在生物医学、社会学、教育学、经济学、金融学等研究领域中是非常常见的,已经有很多统计学家对缺失数据进行了研究,但是在已知的对缺失数据的研究中,大多假定响应变量的分布是正态分布或者是指数族分布,并且假定协变量是完全观测的,而在实际情况中,响应变量的分布往往会更加复杂,协变量也可能存在缺失,所以我们根据Jorgensen(1997)以及唐年胜和韦搏成(2007)提出的再生散度分布族,研究带有不可忽略缺失协变量和响应变量的非线性再生散度随机效应模型.该模型不仅仅是比正态分布和指数族分布更为复杂的模型,并且包含了线性随机效应模型、非线性随机效应模型、广义线性随机效应模型和指数族非线性随机效应模型. 本文基于纵向数据下带有不可忽略缺失协变量和响应变量的非线性再生散度随机效应模型,用Logistic回归模型刻画协变量和响应变量的缺失数据机制模型.考虑到响应变量个体内部的相关性,我们假定缺失数据不仅仅是与它本身有关,也与前次观测有关,而对于协变量缺失,我们假设协变量的分布是由一系列一维的条件分布有关,所以协变量的缺失不仅与它本身有关,也与条件分布中与之相关的协变量有关,还与条件分布中与之相关协变量是否缺失的示性变量有关,所有与缺失数据相关的变量都反映在Logistic归回模型中.在计算模型中未知参数的Bayes估计时,为了克服高维积分问题,我们选择了Gibbs抽样和MH算法相结合的算法,为了得到未知参数的极大似然估计,我们推广了MCEM算法和随机逼近算法.对于模型选择问题,本文基于缺失数据机制模型,扩展了路径抽样的模型选择方法,给出了缺失数据下的Bayes因子、条件预测坐标(CPO)和偏差信息准则统计量(DIC)的具体计算方法,从而解决了协变量不可忽略缺失时的模型选择问题. Bayes局部影响分析和删除影响分析是本文的另外一个研究重点.以往对模型的Bayes局部影响分析和删除影响分析大多是在完全数据下进行的,所以本文基于纵向数据下带有不可忽略缺失协变量和响应变量的非线性再生散度随机效应模型,讨论了Bayes局部影响分析中的四种扰动模式以及合适的扰动模型,并且推导出了计算Bayes局部影响统计量的一般形式,特别地,在协变量和响应变量都存在不可忽略缺失数据的情况下,给出了Bayes因子的具体计算方法.为了探测数据集中的异常点,我们还讨论了Bayes删除影响分析,证明了三种Bayes删除影响统计量(φ-距离,Cook后验众数距离和Cook后验均值距离)的一阶近似公式.