论文部分内容阅读
在调查或试验中存在着大量的纵向数据,所谓纵向数据是指对每个个体在不同
的时间点上测得的一系列数据。与横向数据相比,纵向数据的一个主要优势在于它
可以有效地估计个体内和个体间随时间变化的趋势。纵向数据广泛存在于如社会科
学、医学、药物学、经济学、农业和工业等领域中,因此研究纵向数据的统计分析
有重要的意义。在纵向数据中,虽然不同个体间可视为是相互独立的,但是同一个
体的多次观察数据间存在着不可忽视的相关性,恰当地处理这种相关性是做好统计
分析的关键。而混合效应模型提供了描述这种关系的一种有效方法,本文将围绕这
个主题展开讨论,归纳起来,本论文的主要内容有:
第一章综述性地介绍了本文所涉及的概念、背景、文献中相关模型和方法。关
于纵向数据的一个重要研究方向是在较合理的模型假定下给出具有一定优良性的估
计。为此本章较为详细的叙述了文献中两类相关且在实际中得到广泛应用的模型:
线性混合效应模型和变系数模型。同时本章还回顾了非参数回归模型的局部光滑估
计方法: Nadaraya-Watson估计、Gasser-Miller估计和局部多项式估计方法;由于
局部多项式方法相对于其它两种方法存在着种种优点,本论文将使用局部多项式方
法给出未知函数的估计。
第二章讨论了如下形式的关于纵向数据的随机截距模型:
yij=ui+xτijβ+∈ij i=1,2,…,m;j=1,2,…,ni,
其中ni为个体i的观测次数,yij为个体i的第j次观察值, xij∈rp为给定的
协变量;β为总体未知参数;ui是iid.的随机效应,其期望和方差分别为Eu1=
θ,Var(u1)=σ2u<∞;随机误差∈ij iid.满足E∈11=0,E∈211=σ2∈<∞,且与ui独立.这
个模型也称为误差分量或方差分量模型(见Hsiao,1986),其主要目的是对θ,β,σ2u,σ2u,
作出统计推断.
我们在对ui及∈ij没有任何分布设定的情况下,建立了参数θ,β,σ2u,σ2∈的无偏
估计显式表示;并且在较一般的条件下给出了上述估计量的强相合性,方差分量估
计的强收敛阶(达到了最优的收敛速度)和β,σ2∈估计的渐近正态性.
第三章讨论了一般线性混合效应模型。Laird & Ware(1982)研究了如下的模
型:(公式略)
其中ni为个体i的观察次数,Xi和Zi分别为个体间和个体内的已知设计矩阵,
βp×1为总体参数,bi∈Rq是第i个个体的随机效应向量,且bi iid.,与∈i独立,∈ij
为iid.期望为0,方差为σ2∈(0<σ2∈<∞)的随机误差.
我们在不设定随机效应和随机误差分布的情况下,使用LS方法和残差平方和
分别给出了模型未知参数β,σ2∈估计及随机效应bi预测的显式表示,而且深入研究
了这些估计量的大样本性质,在设计点列及一定矩条件下证明了各估计量的强相合
性和β估计的渐近正态性.
第四章研究了一个新的模型一随机截距变系数模型。Hastie & Tibshirani(1993)
提出了如下一般形式的变系数模型:
Y=X1β1(R1)+…+Xpβp(Rp)+∈
其中Y为响应变量,X=(X1,…,Xp)T为解释向量,{βl(·),1≤l≤p}是一些未知函
数,R1,…,Rp称为效应改变(effect modifying)变量,即通过诸未知函数β1(·),…,βp(·)
来改变X1,…,xp的系数, β(Rl)(l=1,…,p)暗含了Rl和Xl的一种特殊的相互
联系,∈是期望为0、方差为σ2∈的独立于Xl,Rl的随机误差。
注意到Rl可能互不相同,也可能相同,也可能是某个Xl。当R1,…,Rp取不
同的协变量时,由于“维数祸根”(the curse of dimension)问题,上述模型在实际问
题处理中有一定难度。有时,人们常常将R1,…,Rp取成相同的一元协变量,如时
间(West,Harrison & Migon 1985,Hastie & Tibshirani 1987和Cleveland,Groose & Shyu
1991)。
如将变系数模型看成是一般线性模型的一种有用的推广(参见Shumway 1988,
P.245),就存在着与线性模型相同的缺陷,即通常假定回归函数是非随机的,因而
不能很好地反映个体之间存在的差异.借鉴线性混合效应模型的处理,本章中我们
提出了带随机截距项的变系数模型,即如下形式的模型:
Y=u+XTβ(w)+∈
其中u是随机变量,反映了试验的随机效应,X∈Rp,w∈R为设计点列,β(w)=
(β1(w),…,βp(w))T为未知函数系数,我们称此模型为随机截距变系数模型.
若在此模型中,对所有的l=1,…,p,βl(·)=βl(βl为常数),则此模型就化为随
机截距模型(radom intercept models);若u三0,则退化为变系数模型;显见这一模
型是更具灵活性的一个新模型.
在纵向数据的随机截距变系数模型中,我们使用局部多项式方法,给出了函数
系数βl(·)(l=1,…,p)的估计。通过应用函数系数的估计建立了随机效应方差σ2u及
误差方差σ2∈的估计。并探讨了这些估计量的强相合性。两个实例结果表明,这种
新模型是合理的、有用的,相应的估计量是有效可行的。
第五章进一步推广了上一章中的随机截距变系数模型。提出了下述更一般的模
型:
Y=XTβ(w)+ZTb+∈
其中Y∈R为响应变量;X∈Rp,Z∈Rq,w∈R为设计点列;β(w)=(β1(w),…,βp(w))T
为未知函数系数;bi∈Rq为第i个个体的随机效应向量,我们称此模型为变系数
混合效应模型.
在纵向数据场合下,我们首先在假定随机效应期望θ已知的情况下,利用局部
多项式方法得到了函数系数β(·)的估计,通过应用函数系数的这一估计,给出了随
机效应期望θ的LS估计,最后依次得到了β(·),σ2b,σ2∈的估计及bi的预测。并研究
了这些估计量的强相合性及bi预测,θ估计的渐近正态性。模拟研究结果显示,这
种新模型是合理的,估计方法是较为理想的。
由于充分挖掘了纵向数据所提供的丰富信息,我们在不设定随机效应和误差分
布的条件下,成功建立了模型中未知量的显式估计,较为全面地探讨了相应估计量
的大样本性质;进一步,本论文提出了一类更具灵活性的新模型一变系数混合效
应模型,不同于变系数模型的文献,我们在固定设计情形下较为深入地研究了这种
模型;这对纵向数据的理论研究以及应用领域的拓广都是十分重要的。
关键词:纵向数据,线性混合效应模型,随机截距模型,变系数模型,函数系数,局部多项式估计,随机截距变系数模型,变系数混合效应模型,强相合性,强收敛速度,渐近正态性。