论文部分内容阅读
近几十年来,在识别响应变量和预测变量的回归结构问题中,半参回归模型受到了越来越多统计学者的关注。半参模型是非参模型和参数模型的结合,它既保持了非参模型的灵活性,同时又具有参数模型良好的可解释性,特别的它还有效的避免了纯非参回归的维数灾难问题。单指标模型作为一种常见的半参模型,已经广泛的应用到了生物统计、医学药物、经济学、金融学等学科中。令Y是一个随机变量,X ∈χ是一个d维随机向量,β是未知指标参数,常见的单指标模型有:1.单指标回归模型:Y关于X的条件期望与Y关于XTβ的条件期望相等,即E[Y|X]=E[Y|XTβ]=g(XTβ),其中函数g(·)是未知的。相关文献有Hall et al.(1993),Hristache et al.(2001)、Delecroix et al.(2006)、Xia et al.(2002)、Cui et al.(2011)等。2.单指标条件分布模型:Y关于X的条件分布与Y关于XTβ的条件分布相等,即F(Y|X)= F(Y|XTβ)=g(XTβ),其中函数g(.)是未知的。相关文献有Delecroix et al.(2003)、Hall&Yao(2005)、Ma&Zhu(2013)等。3.单指标分位数模型:假设Qα(Y|X)表示Y关于X的条件α分位数,其中0≤α ≤ 1,那么单指标分位数模型定义为Qα(Y|X)= g(XTβ),其中函数g(·)是未知的。相关文献有Chaudhuri et al.(1997)、Kong&Xia(2012)、Wu eta(2010)、Ma&He(2016)等。在单指标模型中,因为涉及到未知函数g,参数β并不是唯一的。因此为了模型的可识别性,我们需要对参数β进行限制。常用的方法有两个:第一个是假设||β|| = 1和它的第一个元素β1>0,见Lin&Kulasekera(2007);第二种是假设参数β的第一个元素为固定值,如β1=1。在本文中,将采用第二种可识别条件。本篇论文中,我们针对单指标模型的估计问题进行研究。我们讨论了三种不同单指标模型,分别是一种广义的单指标模型假设(包括单指标回归模型和单指标条件分布模型)、删失数据的单指标模型和包含条件方差信息的单指标模型。我们给出了它们的估计方法、渐近性质,以及相关的置信区间的构造、单指标假设的检验等内容。在第一章中,我们将提出关于单指标模型的一个新的估计方法。单指标是一种非常自然的降维方法,这一方法对参数模型的精确性和非参模型的灵活性进行了折衷。假设Tu,u ∈U是Y的转换函数族。在单指标假设下,存在唯一的β0,使得对于任意的u∈U,E[Tu(Y)|X]= E[Tu(Y)|Xτβ0],(0.0.1)其中向量β0是需要估计的指标向量,它属于参数集合B(?){(β1,βd):β1=1}(?)Rd。我们的方法基于以下的思路。对于每一个β∈B,假设Xτβ有密度函数fβ(·)。令gu(Y,X,β)= {τu(Y)-E[Tu(Y)|Xτβ]}fβ(Xτβ),u∈U,β ∈ B.那么条件(0.0.1)可转化为,对于任意的u∈U,E[gu(Y,X,β)|X]= 0 a.s.(?)β= β0.因此,定义函数Q(β)= ∫u E[gu(Y1,X1τβ;β)τgu(Y2,X2τβ;β)ω(X1-X2)]dμ(u),β ∈ B,其中ω(·)是空间χ上的实值可积函数并且具有可积的严格正的傅立叶转换,μ是某个概率测度,它的支撑集有波雷尔σ一域。β0是Q(β)= 0的唯一根。那么构造Q(β)的基于样本的近似值Q(β),然后关于参数β最小化Q(β),就可以得到β0的估计β。在我们的模型中函数gu是未知的,在构造Q(β)时,我们使用的是gu的不含分母的核估计,这种估计可以避免使用修正函数并且不用限制协变量的取值范围。据我们所知,目前在单指标模型的估计方法中,我们的方法是唯一不需要这两种限制的。我们的估计值是一致的,并且是(?)-渐近正态的。由于渐近方差的结构非常复杂,我们提出了一种类似于Lavergne&Patilea(2013)中给出的重抽样方法来构造置信区间,也见于Jin etaJ.(2001)。在该方法中,我们构造了准则Q(β)的一个随机扰动版本并计算其最小值点。这个最小值点的分布接近于β的分布。通过多次重复这一过程,可以得到β分布的一个近似。我们还利用几个模拟实验和真实数据来评估我们的估计方法。结果表明我们的方法要优于现有的方法。在第二章中,我们研究了删失数据的估计问题。我们提出了一种降维方法,利用单指标假设,在SMD类型方法的帮助下估计指标参数ββ。假设T是在(-∞,∞]中取值的随机变量。这类模型常常假设T是非负的,但是我们的方法并不需要这一限制条件。令Y是实值随机变量,δ是一个标识变量,X是在某个空间χχ中取值的协变量。标识变量用来标识Y的取值是寿命时间T,还是小于T的某个随机量。也就是说,δ = 1 如果 Y = Tδ = 0 如果 Y<T.我们的目标是估计T关于X的分布。事件{T = ∞}的条件概率允许为正。观察值可以用条件子概率来描述,令H1((-∞]|x)= P(Y≤t,δ = 1|X = x)H0((-∞,t]| x)-P(Y<= 0 | X = x),t ∈ R,x ∈ χ.那么Y的分布为H((-∞,t]| x)= P(Y<t|X = x)= H0((-∞,t]| x)+H1((-∞,t]| x).为了估计T的条件分布,通常用如下方法来构造模型:存在一个随机变量C作为右删失时间,Y =T八C,δ = 1{T<C}.在适当的可识别假设下,例如T和C是关于X条件独立的,T关于X的条件分布可以表示为关于H0(· | x)和H1(·| x)的解析表达式,那么就可以通过代入G0(· |x)和|(和| |x)的非参估计来得到相应的估计。这种估计通常被称为条件Kaplan-Meier估计。见Beran(1981)、Dabrowska(1989)、van Keilegom&Veraverbeke(1996)。但是这些方法在χχ是一个维度高于1的空间时都将遇到维数灾难问题。在本文中,我们将提出一种单指标降维方法,这一方法可以看作是第一章中的估计方法在删失数据模型中的推广。我们方法的原创性在于仅对观察值(Y,δ)做了限制。更精确的说,在χ =Rd 上,我们要求对于某个未知向量β0∈ B(?)Rd,有(Y,δ)丄X |Xτβ0.为了估计β0,我们将第一章中的估计方法推广到了存在删失的情况下。并且证明了估计结果的一致收敛性和渐近正态性。我们用第一章中给出的重抽样方法来构造置信区间。最后我们给出了事件{T = ∞}的条件概率的估计,它是Xu&Peng(2014)中的结果的推广。值得一提的是,不同于现有的检验删失数据的单指标假设的方法,如Bou-aziz&Lopez(2010),Xia et al.(2010)和Strzalkowska-Kominiak&Cao(2013),利用Maistre&Patilea(2014)中的方法,我们给出了一种简便的检验方法。在第§2.6节,我们利用了模拟实验和真实数据来验证新方法的性能。在第三章中,我们考虑了具有额外方差限制的单指标模型。在实际应用中,由第一和第二阶条件矩定义的模型是一种非常常见的统计模型。最近的参考文献有Ziegler(2011)。在这里,我们考虑的是Cui et al.(2011)中的模型结构的扩展形式。考虑变量(Y,XT)T其中Y是计数变量、X是d维解释变量,假定存在唯一的β0∈ Rd,使得单指标模型条件E(Y|X)= E(Y| Xτβ0)= r(Xτβ0;β0)成立,并且对于某一实值α0,有Var(Y|X)=g(E(Y|X),α0)= g(r(Xτβ0;β0),α0),其中函数r(.)是未知的,函数g(.,.)是已知的,并且对于每一个r,映射α →g(r,α)是一一映射。我们提出了关于这类具有条件方差信息的单指标回归模型的一个新的估计方法。该方法将Gourieroux etal.(1984a,1984b)提出的拟似然伪最大似然方法扩展到半参结构中。更精确的说,我们使用基于具有讨厌参数的线性指数族密度的两步伪最大似然(PML)方法去估计参数β0和函数r(.)。所使用的密度可由均值r和包含在方差中的讨厌参数进行参数化。尽管我们使用了似然类型的准则,但是推导渐近结果时并不要求Y拥有关于X的条件分布。因为回归函数r(·)未知,在构造伪似然准则时需要使用它的非参估计,因此我们面临光滑参数如何选取的问题。现有的半参指标回归文献虽然包含了大量的关于如何估计指标的内容,但是对于如何选取光滑参数却很少提及。尽管光滑参数并不影响β0的半参估计的渐近方差,可是实际上β0和回归函数的估计对于光滑参数的取值非常敏感。我们的另外一个贡献是给出了一个自动选择光滑参数的方法。为此,我们扩展了Hardle et al.(1993)中提出的方法(也见Xia&Li(1999),Xiaet al.(1999)和Delecroixe al.(2006))。这个方法是同时对于β和光滑参数(核估计的窗宽)最大化伪似然。窗宽取值于Tn-1/4到n-1/8之间。在某种意义上,该方法将窗宽认为是一个辅助工具,伪似然可以提供它的一个估计值。通过对伪对数似然进行合适的分解,可以发现这个联合最大化问题渐近等价于分别关于参数θ最大化非线性函数和关于窗宽最小化加权交叉验证平方均值函数。此外,我们还给出了估计值的渐近性质的证明以及关于该方法的模拟实验和真实数据验证。