论文部分内容阅读
当对同一个体在不同的时间点重复测量便得到纵向数据。纵向数据广泛出现于生物医药,流行病学和临产医学等领域中。比如一般可以通过临床试验(clinical trials)与观察性队列(observational cohort studies)研究获得生物医学纵向样本。由于个体数据按时间重复测量得到,一个合理的假设是个体内的观测值是统计相关的,而个体间观测值是统计独立的。充分考虑个体内的相关性,是纵向分析的一个重要内容。忽略这种个体内的相关性会对我们感兴趣的参数的估计造成偏差,由此会降低统计推断的可靠性。
目前纵向分析注重于达到两个目标:一是建立的模型必须能合理解释资料的实际意义,应用简单、灵活。在生物医学和流行病学研究中,更希望获得解释清晰、具有实际生物学意义、且数学结构简单的模型。二是发展可充分处理个体内相关性的统计估计、推断和模型诊断方法。
近些年来,统计研究者发现在某些纵向数据研究实例中有必要考虑关于参数的约束条件。一些典型的例子如人类肿瘤移植实验、糖尿病的对照性实验和早期教育对儿童作用的前瞻性研究等等。已有统计学者对约束问题的统计估计和推断问题做了一些研究。一般来说,约束问题中的估计量的数值解由约束优化算法得到,但无法从这些迭代算法中得到估计量的解析表达式,因此估计量的概率性质,尤其是渐近分布,很难得到。然而,估计量的概率性质又是统计推断中不可缺少的部分.Fang et al.(2006)的文章中说:“约束条件的存在使纵向研究中估计和推断变得复杂,这是统计研究中的一个挑战”。事实上,纵向数据分析的文献中几乎没有涉及过约束问题估计量的大样本性质的系统研究。本文一个方面的研究成果是不仅给出了带约束条件的边际模型的估计方法,而且证明了相应估计量的大样本性质。
在第二章里,为了得到有效的估计,我们同时考虑了约束条件和个体内的相关性,给出了一个约束两步估计方法。我们引入了“工作协方差矩阵”的概念,并用这个矩阵的逆作为加权矩阵。约束两步估计法的步骤是:第一步给出“工作协方差矩阵”的估计,带入估计方程中得到一个二次规划问题;第二步解这个二次规划问题得到回归参数估计量的数值解。接着我们运用Wang(1996)文中的方法推出了约束估计量的大样本性质,包括依概率有界性和渐近分布。在证明中,由于纵向数据的个体内相关性和未知协方差矩阵,一些其他的工具被运用,如Crámer—W(o)ld定理和Lindeberg—Feller中心极限定理。利用Kuhn-Tucker条件,我们最终证明了约束估计量是分片正态分布的。数值模拟表明:在约束两步估计、约束最小二乘估计和无约束两步估计中约束两步估计具有更高的估计效率。
在第三章中,我们进一步假设随机误差部分服从正态分布,这样就可以运用带约束的最大似然估计的方法。在对协方差矩阵参数化后,我们能同时得到回归参数和协方差参数的最大似然估计。因为这是个约束优化问题,只能由迭代算法得到估计量的数值解,而不可能得出解的明确表达式。接着我们用特定的方法证明了估计量的大样本性质,包括强相合性、近似表达式(approximate representation)和渐近分布。当样本量足够大时,我们可以求得估计量位于约束集不同部分时相应的近似表达式。基于这些不同的近似表达式,推出估计量的渐近分布是服从分片正态分布的。数值实验表明带约束的最大似然估计比不带约束的最大似然估计具有更高的估计效率。因此如果忽略约束条件会降低统计推断的可靠性。
参数模型的主要优点是简单,易解释,计算容易实现。但如果错误说明这些参数模型,则可能导致获得错误的结论,因此有必要减少一些参数造成的约束。非参数模型的思想是更多的让数据本身选择模型,至少在探索性的研究中,更加合理和可行。
本文的第四章研究了纵向数据的变系数模型,这是一类重要的结构性非参数回归模型,具有实际意义,而且数学上更易处理,它可以适当避免所谓的“维数祸根”问题。为了更有效的拟合这个模型,我们提出了逐元局部多项式两步估计法。这种方法有两个优点:一是两步法充分考虑了个体内的相关性;二是逐元局部多项式法可以选择不同的窗宽,在系数函数具有不同光滑度时比选择单窗宽估计效率更高。并且我们证明了这种估计量的大样本性质,包括条件渐近偏差,方差和渐近分布。渐近结果表明,两步估计法对估计量的条件渐近偏差没有影响,但对条件渐近方差有影响。