论文部分内容阅读
传统来讲,统计分析中的函数估计有两种方法,其一是参数方法,另一种是非参数方法.非参数方法具有吸引人的灵活性,然而,在多变量情况下,由于维数问题的影响,其估计的函数不能达到合理的准确度。为避免维数问题的影响,人们开始越来越多的关注半参数方法,例如可加模型,部分线性模型等等。在第1章中,我们简单介绍了一些基本的非参数和半参数模型。对于非参数模型,最具代表性的就是核平滑,包括核密度估计与核回归估计。核回归估计又包括Nadaraya-Watson估计,Gasser-Muller估计和局部多项式估计。对于半参数模型,我们介绍几种典型的形式,包括可加模型、部分线性模型、广义可加模型、广义部分线性模型以及广义部分线性可加模型。一元随机变量的概率密度函数(简称为密度)的估计是统计学中的一个基本问题。令X1,…,Xn为一列独立同分布的一元随机变量,其密度为f。我们可以通过参数方法(如最大似然估计)或非参数方法(如核密度估计)来估计f。非参数模型具有很好的灵活性,然而,参数模型也有自己的优势,如,其结构容易被理解和接受。为结合这两种方法的优点,人们提出了一种半参数乘积调整方法(Hjort&Glad,1995,Hjort&Jones,1996,Naito,2004)。该方法首先使用一个参数密度估计g(x,(?)),将它作为真实密度f(x)的一个粗略的近似,这个参数估计再乘以一个调整因子ξ=ξ(x),该调整因子可以按照某些调整准则通过非参数方法来确定。Hjort&Glad(1995),Hjort&Jones(1996)以及Naito(2004)提出了几种不同的确定调整因子的准则。Hjort&Glad(1995)的准则是基于对ξ的一种简单估计;Hjort&Jones(1996)给出了两种调整准则:局部似然准则和局部L2拟合准则;Naito(2004)提出了一种带有指数α的局部L2拟合准则,该准则是最为一般的情况,其它几个准则都是其特例。理论比较表明,在非常大的一类密度中,该半参数密度估计要优于传统的核密度估计。然而,以上所讨论的方法都是基于独立同分布的观测。该方法对相依数据的统计性质迄今为止还没有得到研究。而无论是在理论分析还是实际应用中,都需要对非线性时间序列建模、估计时间趋势、建立预测区间等等对于非线性时间序列的处理,这促使我们考虑该方法是否适用于相依数据的情况。在第2章中,我们将这种半参数调整方法推广到时间序列的情况,给出了估计的渐近性质并做了有限样本模拟。我们发现,当观测数据满足一定的混合条件时,所得结果与独立样本时非常相似:偏差没有受到相依性的影响,而渐近方差(方差的主要部分)与独立情况下相同。然而,渐近方差的结果主要依赖于Xt之间的相依强度。令Zt=Kh(Xt-x)g0(Xt)1-α,则有(*)式右边的第一项就是独立情况下的方差,第二项是由Xt之间的相依性造成的额外可变性.相依强度就可以通过(?)Cov(z1,zl+1)加以度量。对α混合过程,我们有如下的标准结果:所以有Var(?)α(x)=1/ThR(K)f(x)+o(1/Th).然而,如果不满足一定的相依条件,(*)式右边的第二项就会非常大,达到可以超过第一项的程度,这会极大地影响到所得估计的收敛速度。在第3章,我们研究的是关于时间序列数据的回归问题。假设观测到平稳序列(X1,Y1),…,(XT,YT),感兴趣的问题是如何估计条件均值函数m(x)=E(Y|X=x).在独立同分布的情况下,Glad(1998)提出了一种新的估计回归函数的半参数方法,该方法首先给出一个参数回归,然后用一个局部多项式回归估计对此参数回归进行乘积调整。与标准的非参数回归估计相比,当所选的参数回归估计属于真实回归曲线的一个很大的邻域时,所得到的估计都可以有效的降低估计的偏差,而渐近方差不受影响。本章中,我们证明了该半参数方法可以推广到混合相依数据,此时的数据可以服从ρ混合过程或α混合过程。尽管相依情况下的结果与独立时类似,但是证明过程却有很大差别。对于独立同分布的情况,可以通过关于设计阵X取条件期望得到偏差与方差的表达式,而对相依数据却不可以,如对于自回归模型,对X取条件期望相当于对整个序列来取,所以在推导渐近性质时需要采用不同的方法。本文中,我们通过推导估计的渐近正态性而得到其渐近偏差和渐近方差。在第4章,我们提出了一种具有适应性的半参数方法来估计部分线性模型的非参数部分。要估计的部分线性模型的形式如下:Yi=xiτβ+g(ti)+εi,i=1,…,n其中,{xi}和{ti}分别为p维和一维解释变量,β为未知的p维参数向量,g(t)是一个未知的平滑函数,t∈(0.1],ε1,…,εn独立同分布,其均值为0,方差为σ2。不失一般性,假设设计点t1,…,tn满足0≤t1<t2…<tn≤1。令(?)n(t)为由通常的估计程序所得的g(t)的估计,在某些正则条件下,(?)n(t)的均方误差为MSE((?)n(t))=σ2/nh+O(h4)+o(n-1h-1)+o(h4).由上式可知,窗宽h的最优选择应与n-1/5成比例,而当窗宽最优时,均方误差MSE((?)n(t))的阶为n-4/5。注意到n-4/5是非参数估计的标准收敛速度。然而,尽管我们并不知道g(t)的具体形式,我们仍然希望能够找到一种估计方法,使得所得到的g(t)的估计能够具有如下性质:如果g(t)事实上是一个参数函数,那么所得到的估计应具有参数估计的收敛速度;否则,应该具有非参数估计的收敛速度。换句话说,估计方法应该适应于函数g(t)。本章中我们将使用一种半参数调整技术来解决上述问题。该半参数调整技术最早用于改善密度估计(见Naito,2004,Hjort&Glad,1995和Hjort,&Jones,1996)。在该方法中,首先用一个参数模型作为g(t)的初始估计,该估计仅仅是一个粗略猜测,然后再乘以一个非参数因子进行调整。由此产生的估计能够达到令人满意的收敛速度,尤其当回归函数空间具有好的性质时,可以达到参数估计的收敛速度。此处所谓的好的性质是指要估计的函数充分的平滑或者就是在初始的参数模型类中。值得注意的是,在我们的估计程序中,我们事先不需要知道函数g(t)的任何信息。新的估计的MSE的收敛速度一般为O(n-4/5)——这是非参数估计的最优收敛速度,最快能够达到O(n-1)——这是参数估计的最优收敛速度。因此,该估计具有适应性,即能够适应于所估计的函数而达到不同的收敛速度。此外,为了确定调整因子,我们使用了类似于Hjort&Jones(1996)所使用的局部L2拟合准则,然而为了从该准则得到调整因子的估计,Hjort&Jones的推导过程就不适用了。因为他们的方法是为了估计密度函数而提出的,此时可以通过期望的经验形式来得到调整因子,而在回归情况下却没有相应的经验形式,为此我们采用了一种积分逼近的方法来确定调整因子。在本章中,我们也将此方法推广到了随机设计的情况。在第5章,我们给出了倒向随机微分方程的生成元的估计方法。自Pardoux&Peng(1990)解决了一般情况下的存在唯一性之后,倒向随机微分方程(简称为BSDEs)的研究取得了迅猛发展,不管是在自身的发展方面还是在其它相关领域如随机控制、金融数学、随机对策以及经济管理等等,倒向随机微分方程都是一个强有力的工具。在倒向随机微分方程中,生成元起着非常重要的作用,而对于一般的倒向随机微分方程生成元的估计乃至其统计性质的分析,至今仍然存在空白。我们考虑如下的一类具有马尔可夫性的正倒向随机微分方程(参见EL Karoui,Peng&Quenez,1997):假设在离散的时间点t0<…<tn,我们有观测数据{(Xti,Yti),i=0,…,n}。为简单起见,假设时间间隔相等,令△=ti+1-ti,我们从具体实例和理论分析出发,提出了在很多情况下,倒向随机微分方程的生成元具有可加结构,而对于此可加结构,可以应用统计中经典的可加模型的处理方法。可加模型的估计方法有很多,例如backfitting,边际积分估计,Horowitz&Mani-men的两阶段估计以及Lin,Cui&Zhu的具有适应性的两阶段估计。本章中,我们所用的方法类似于前面所提的具有适应性的两阶段估计,但是也有一些不同。第一个不同在于,为确定第二阶段的估计,我们采用了局部多项式拟合的方法,这是由于局部多项式具有许多优良的性质,这不同于Lin,Cui&Zhu(2006)所用的局部L2拟合准则;另一个不同在于,对于倒向随机微分方程,我们观测到的是时间序列数据,而Lin,Cui&Zhu(2006)所提的方法是基于独立同分布的观测,所以在推导估计的渐近性质时,我们必须考虑相依性造成的影响。