纵向数据的回归分析

来源 :南京大学 | 被引量 : 0次 | 上传用户:xtmpjordan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当对同一个体在不同的时间点重复测量便得到纵向数据。纵向数据广泛出现于生物医药,流行病学和临产医学等领域中。比如一般可以通过临床试验(clinical trials)与观察性队列(observational cohort studies)研究获得生物医学纵向样本。由于个体数据按时间重复测量得到,一个合理的假设是个体内的观测值是统计相关的,而个体间观测值是统计独立的。充分考虑个体内的相关性,是纵向分析的一个重要内容。忽略这种个体内的相关性会对我们感兴趣的参数的估计造成偏差,由此会降低统计推断的可靠性。 目前纵向分析注重于达到两个目标:一是建立的模型必须能合理解释资料的实际意义,应用简单、灵活。在生物医学和流行病学研究中,更希望获得解释清晰、具有实际生物学意义、且数学结构简单的模型。二是发展可充分处理个体内相关性的统计估计、推断和模型诊断方法。 近些年来,统计研究者发现在某些纵向数据研究实例中有必要考虑关于参数的约束条件。一些典型的例子如人类肿瘤移植实验、糖尿病的对照性实验和早期教育对儿童作用的前瞻性研究等等。已有统计学者对约束问题的统计估计和推断问题做了一些研究。一般来说,约束问题中的估计量的数值解由约束优化算法得到,但无法从这些迭代算法中得到估计量的解析表达式,因此估计量的概率性质,尤其是渐近分布,很难得到。然而,估计量的概率性质又是统计推断中不可缺少的部分.Fang et al.(2006)的文章中说:“约束条件的存在使纵向研究中估计和推断变得复杂,这是统计研究中的一个挑战”。事实上,纵向数据分析的文献中几乎没有涉及过约束问题估计量的大样本性质的系统研究。本文一个方面的研究成果是不仅给出了带约束条件的边际模型的估计方法,而且证明了相应估计量的大样本性质。 在第二章里,为了得到有效的估计,我们同时考虑了约束条件和个体内的相关性,给出了一个约束两步估计方法。我们引入了“工作协方差矩阵”的概念,并用这个矩阵的逆作为加权矩阵。约束两步估计法的步骤是:第一步给出“工作协方差矩阵”的估计,带入估计方程中得到一个二次规划问题;第二步解这个二次规划问题得到回归参数估计量的数值解。接着我们运用Wang(1996)文中的方法推出了约束估计量的大样本性质,包括依概率有界性和渐近分布。在证明中,由于纵向数据的个体内相关性和未知协方差矩阵,一些其他的工具被运用,如Crámer—W(o)ld定理和Lindeberg—Feller中心极限定理。利用Kuhn-Tucker条件,我们最终证明了约束估计量是分片正态分布的。数值模拟表明:在约束两步估计、约束最小二乘估计和无约束两步估计中约束两步估计具有更高的估计效率。 在第三章中,我们进一步假设随机误差部分服从正态分布,这样就可以运用带约束的最大似然估计的方法。在对协方差矩阵参数化后,我们能同时得到回归参数和协方差参数的最大似然估计。因为这是个约束优化问题,只能由迭代算法得到估计量的数值解,而不可能得出解的明确表达式。接着我们用特定的方法证明了估计量的大样本性质,包括强相合性、近似表达式(approximate representation)和渐近分布。当样本量足够大时,我们可以求得估计量位于约束集不同部分时相应的近似表达式。基于这些不同的近似表达式,推出估计量的渐近分布是服从分片正态分布的。数值实验表明带约束的最大似然估计比不带约束的最大似然估计具有更高的估计效率。因此如果忽略约束条件会降低统计推断的可靠性。 参数模型的主要优点是简单,易解释,计算容易实现。但如果错误说明这些参数模型,则可能导致获得错误的结论,因此有必要减少一些参数造成的约束。非参数模型的思想是更多的让数据本身选择模型,至少在探索性的研究中,更加合理和可行。 本文的第四章研究了纵向数据的变系数模型,这是一类重要的结构性非参数回归模型,具有实际意义,而且数学上更易处理,它可以适当避免所谓的“维数祸根”问题。为了更有效的拟合这个模型,我们提出了逐元局部多项式两步估计法。这种方法有两个优点:一是两步法充分考虑了个体内的相关性;二是逐元局部多项式法可以选择不同的窗宽,在系数函数具有不同光滑度时比选择单窗宽估计效率更高。并且我们证明了这种估计量的大样本性质,包括条件渐近偏差,方差和渐近分布。渐近结果表明,两步估计法对估计量的条件渐近偏差没有影响,但对条件渐近方差有影响。
其他文献
本文主要研究含有超线性项和奇异项的椭圆型偏微分方程正解的存在性.  首先,讨论了R2中一类不含Amborosetti-Rabinowitz(简称AR)增长条件的超线性非齐次椭圆方程-△u+V(x)u=
转化后进生一直是学校德育工作中最棘手的问题。能否做好后进生转化工作关系到一个班集体的班风,甚至是一个学校的学风。它是学校实施素质教育的重要一环。笔者在多年的班主
由于教师职称薪酬待遇优于会计职称,教育教学存在竞争,而会计工作缺乏对比性,兼做财务工作的教师因而多重视教师角色,侧重所教学科的钻研,而忽视了财务业务的研究,从而会给学
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
每年全国各地高考试卷中,都有不少试题与三角形的“四心(内心,外心,垂心,重心)”有关,与三角形的“心”有关的向量问题是一类极富思考性和挑战性,又具有相当深度和难度的重要
本文研究描述两类肿瘤生长的高维自由边界问题,给出其严格的数学分析。全文分四章: 第一章,研究抑制物作用下的稳态multi-layer肿瘤模型的分歧问题。在研究了该问题扁平稳态
在实际问题中,由于某些抽样个体不愿意提供所需信息、某些不可控的原因导致信息丢失以及调查者未能收集到准确信息等因素而导致大量缺失数据的产生. 事实上,数据缺失在可靠性
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
由于西部拓进工程的需要,浙江通达风力发电有限公司从洛阳矿山机器厂(现中信重工机械股份有限公司)购置了JKMD1.85×4型提升机及成组设备,电控设备采用PLC可编程控制系统和6R
下一代互联网(NGI)的目标是使现行Internet变得安全、泛在、高效、可管、可控和可信。本论文关注的是安全和高效这两个目标,重点研究基于Internet的应用层多播网络。一方面,本