论文部分内容阅读
在统计研究中,复杂数据的分析与建模得到了广泛关注.本文所考虑的复杂数据包括纵向数据、缺失数据和测量误差数据.纵向数据分析的关键在于建模时如何考虑个体内部不同测量之间的相关性,广义估计方程常常用来作为分析纵向数据的工具.纵向数据受各种主客观原因常常会出现缺失的情形,当缺失观测的概率依赖于观测数据时,估计方程通常是有偏的且得到的估计不相合.逆概率加权的思想是通过对观测到数据的加权调整,进而可以得到参数的相合估计.在实践中,一些协变量可能会因为变量本身的性质或测量机制而含有测量误差,对测量误差数据进行统计分析也很有必要.具体地,本文的研究内容有以下四个方面.对响应变量单调缺失下的纵向线性模型,基于二次推断函数和逆概率加权广义估计方程提出了回归系数的估计方法.该方法有效处理了纵向数据的组内相关性,并且不需要估计工作相关矩阵中的讨厌参数.在一定的正则条件下,证明了所得估计量的相合性和渐近正态性.通过模拟研究和实例分析验证了所提出方法在有限样本下的实际表现.对协变量含有测量误差的纵向部分线性模型,基于偏差校正和二次推断函数提出了一种广义经验似然的方法来估计模型中的参数分量和非参数分量.给出了回归参数的广义经验对数似然比统计量和非参数分量的残差调整的经验对数似然比统计量,证明了给出的经验对数似然比依分布收敛于卡方分布,并构造了相应的置信域.与基于正态逼近方法构造置信域相比较,经验似然方法构造置信域不需要估计渐近方差和偏差.模拟研究也显示所提方法具有更好的有限样本性质.对响应变量缺失协变量有测量误差下的纵向部分线性模型,假定基于测量误差数据的缺失机制,缺失机制的调整更加合理并且对模型参数也有更明确的解释.该方法建立了 Logistic缺失机制模型,考虑了纵向数据的组内相关性及其对测量误差的纠偏项的影响,给出了回归参数的广义经验似然比,并证明了该统计量是渐近服从中心卡方分布.对非参数分量,利用借补的方法提出了借补的经验对数似然比统计量,证明渐近服从非中心卡方分布.为此,给出了残差校正的借补的经验对数似然比,这样避免了欠光滑而且偏差项也消失了.同时分别构造了兴趣参数和非参数分量的置信域和逐点置信区间.经验似然方法构造置信域不需要渐近方差和渐近偏差的相合估计,往往精度更高.模拟和实例分析结果可以看到这一点.对纵向单调缺失数据下的部分线性模型,提出了光滑阈的变量选择方法.该方法是基于逆概率加权广义估计方程提出的,因此称之为光滑阈逆概率加权广义估计方程方法.所提出的方法可以自动地将不显著变量的系数压缩为零,同时通过光滑阈逆概率加权广义估计方程给出重要变量系数的估计值.该方法有光滑阈估计方程方法的优点,即它避免了惩罚函数的凸优化问题而便于计算.在一定的正则条件下,证明了变量选择的相合性和估计的Oracle性质.模拟研究结果表明所提出的变量选择方法是有效的.