论文部分内容阅读
纵向数据是综合了截面数据与时间序列数据特征的一种复杂数据类型.因为应用背景的不同,纵向数据有时也称为面板数据.纵向数据、面板数据广泛产生于经济学、管理学、生物学、心理学、健康科学等诸多领域,对纵向数据的研究具有重大的理论和实际意义.生存分析是研究特定事件发生时间的一门学科,相应的数据称为生存数据.在生存分析中,分位数回归是Cox比例风险模型和加速失效模型的很有价值的补充,它允许在生存时间分布的不同分位点,协变量效应也不同,并且对厚尾分布、异方差分布等特殊分布具有很好的稳健性.因此,分位数回归在生存分析领域引起了广泛的关注.本文主要给出了如下几个关于纵向数据和生存数据的统计推断结果.
1.我们考虑了带信息观察时间和相依终止事件的纵向数据,并采用了联合建模的思想,利用一个公共潜变量来刻画纵向过程、观察过程和终止事件之间的相关性.在建模过程中,提出了一种借代力量估计方法来进行参数估计,并给出了估计的大样本性质和有限样本性质.同时,我们还提出了一些拟合优度检验方法来评估各个模型的合理性.最后,将我们的模型应用到一组膀胱癌数据上,得到了一些较合理的结果.
2.当不规则的抽样时间受到协变量以外的其他因素影响时,往往需要对均值反应模型引入一个有偏抽样设计来达到更好的推断效果.在有偏抽样下,针对带信息观察和带信息删失的情况,利用一个不能观察的潜在变量,提出了一个联合建模方法来刻画纵向反应变量与观察时间和删失时间的相关性,获得了模型中回归参数的估计方程以及估计的渐近性质,并通过数值模拟验证了这些估计在小样本下也是有效的,同时把该估计方法用于一组实际的膀胱癌数据分析中.
3.针对删失数据,当生存时间和删失时间在给定协变量下独立时,我们提出一类具有幂变换的分位数回归模型.在建模时,我们提出了一种两步估计方法:首先,对给定的变换参数,基于鞅的框架,我们得到回归系数的估计;其次,我们可以让残差的累积过程达到最小得到变换参数的估计.基于该估计方法,我们提出了一种简单易用的迭代算法.我们证明了估计的相合性和渐近正态性,一些数值模拟实验反映我们的方法具有很好的有限样本性质.最后,我们将该方法应用到HMO-HIV数据,并给出一些结论和讨论.