论文部分内容阅读
纵向数据是由多个体在不同的时间点或者空间点处的若干次观测的数据构成,这类数据的一个很重要的特点是个体间的观测值通常是独立的,但是每个个体的观察值具有较高的相关性。因此对纵向数据的建模要充分考虑个体内观测值的相关性。传统的关于纵向数据的分析方法,主要是在一定分布假定下对响应变量的均值进行建模,而对协方差结构做一些设定(即协方差结构是已知的,只是其中的参数未知)。这种建模的方法的优点是简单方便,但局限性是很难去验证实际数据与假定分布之间的一致性,并且当协方差结构错误设定时,会大大降低统计推断的有效性,比如会降低均值参数估计的有效性等。因此,如何在放松分布假定的情形下,对纵向数据的均值和协方差建立联合模型进行分析是一个重要和有挑战性的问题。目前在放松个体分布的假定下,对纵向数据建立均值-方差联合模型,主要采用对协方差矩阵进行不同形式的分解,同时构建均值-方差联合广义估计方程(Generalized estimating equations,GEE)进行的。采用GEE方法的优势是仅需对个体分布的低阶矩进行假定,而不需要对个体分布做任何形式上的假定,因而大大拓宽了模型的适用范围。在GEE框架下联合模型的实际应用中,如何快速有效地筛选出对模型有较大影响的自变量具有重要的意义,但是目前对GEE框架下的联合模型开发算法上易于执行并兼具oracle性质的变量选择方法研究较少。当纵向数据的联合模型确定后,判断给定联合模型的合理性以及克服实际数据与给定模型之间可能存在偏离的情况就成为另一个亟待解决的问题。通过统计诊断和稳健统计的方法可以有效解决这些问题。为此,本文主要在GEE框架下,研究了纵向数据均值-方差联合建模的变量选择、统计诊断以及稳健的联合建模这三个重要的问题。首先,提出了协方差矩阵进行修正的乔利斯基分解(Modified Cholesky decomposition,MCD)下的光滑阈值的联合广义估计方程。该光滑阈值的联合广义估计方程能够自动将无关变量的系数估计为零,因而能够同时进行变量选择和参数估计。在对该光滑阈值的联合广义估计方程的求解过程中,提出采用三个带惩罚的加权偏差准则去选取模型中的最优的调节参数并采用牛顿-辛普森算法迭代求得该方程具有稀疏性的解。在一定的正则条件下,我们研究了该光滑阈值的联合广义估计方程的解的相合性以及渐近正态的性质,同时探讨这种方法在变量选择方面的oracle性质。这个光滑阈值的联合估计方程避免了传统的对广义估计方程直接添加惩罚项进行变量选择所带来的凸优化问题并且具有算法上易于执行的优点。模拟研究和实际数据分析均展示了我们给出了光滑阈值联合广义估计方程在参数估计和变量选择方面的优良表现。其次,基于协方差矩阵进行MCD,讨论了均值-方差联合广义估计方程的统计诊断方法。我们主要采用的个体数据删除方式的“点删除”影响分析法,去探测实际数据中的异常点和强影响点。我们首先分别导出均值参数和协方差参数(自回归参数以及革新方差参数)的一步近似诊断统计量,用来近似计算个体数据删除前后估计量的改变量。然后引入伪费希尔信息矩阵作为权重矩阵构建相关参数的广义Cook距离诊断统计量。我们提出的关于全参数的广义Cook距离可以直接分解为关于均值参数、自回归参数以及革新方差参数的诊断统计量,方便我们对这三组参数进行统计诊断分析。最后,随机模拟和实际数据分析,显示了我们提出的诊断统计量能够快速以及有效的识别数据中的影响点。最后,在误差向量满足ARMA(Autoregressive moving average)过程下构建了稳健的均值-方差联合估计方程。该稳健估计方程将皮尔逊残差运用到有界的得分函数上去降低异常响应变量的影响,同时引入了Mallows类型的权重去降低杠杆点的影响。在一定的正则条件下,我们探讨了模型参数估计的相合性以及渐近正态的性质。在无污染数据和包含各种类型的污染数据的模拟实验和实际数据分析中,充分展示了无论数据来源于什么分布以及无论数据是否存在污染,我们提出的稳健的联合模型均有不错的表现。特别地,当数据存在污染数据的时候,稳健的联合模型在参数估计方面的表现要优于非稳健联合模型。本文的主要贡献有以下三个方面:(1)提出了光滑阈值联合广义估计方程。该模型有效地解决了纵向数据GEE框架下联合建模的参数估计和变量选择问题,并且具算法上易于执行的优点。(2)建立了GEE框架下联合模型的广义Cook诊断统计量。提出的诊断统计量能够快速有效的识别出实际数据中的异常点或者强影响点,为我们进一步进行统计分析提供了帮助。(3)在协方差矩阵更为一般化的分解下,提出了均值-方差稳健的联合模型。该模型很好的克服了实际数据中的异常数据或者强影响数据对模型统计推断的影响。这些在放松个体分布假定下对纵向均值-方差联合模型的研究,不论在理论还是实际纵向数据分析中均具有重要作用。