论文部分内容阅读
由于传统的参数方法在一些实际应用中不足以充分刻画响应变量和相关的共变量之间的潜在关系,所以在过去的二十年中,越来越多的学者将研究的兴趣投向非参数时间序列建模的理论分析和实际应用.非参数方法的优点是它可以根据观测数据的实际情况灵活地反映时间序列变量之间的关系,从而使模型更加稳健,预测更加准确.事实上,非参数时间序列分析的应用可以追溯到20世纪40年代.近些年来,现代计算机的高速发展和信息时代的到来使我们面临更多的机会和挑战.科技上的发明导致了爆炸性的数据收集(比如股票市场交易的数据等).而非参数建模方法为应对这一挑战提供了有效的探索工具.关于该方法的渐近性质,很多学者都已做了非常深入的研究,参见Fan&Gijbels(1996),Fan&Yao(2003),Li&Racine(2006)及其中的参考文献.然而,在共变量的维数大于2的多元情形下,由于“维数灾难”的影响(见Bellman 1961),非参数估计方法不能足够精确地估计回归函数.如何克服维数灾难是非参数统计推断中一个非常重要的问题.Hastie&Tibshirani(1990),Hastie&Tibshirani(1993),Gao(2007)等文献都提出了很多行之有效的方法以避免维数灾难.其中,半参数部分线性方法是应用较广的一类工具.该方法一个很大的优点是它在模型中综合考虑了线性相关和非线性相关两方面的因素.部分线性模型的研究始于1980年代(如Engle,Granger,Rice&Weiss 1986).此后,很多计量经济和统计的文献都系统研究了部分线性的方法,包括模型中参数和非参数部分的估计和检验理论等.关于部分线性模型的具体发展,参见Robinson(1988),Hardle,Liang&Gao(2000),Gao(2007)等文献.上面提到的专著和论文主要在时间序列满足一定的平稳性条件时,研究非参数和半参数统计推断的方法.而在实际中,平稳性的假设有时可能过于苛刻.因为在处理经济和金融问题时,我们经常会碰到一些非平稳的变量.比如,随着时间的变化,价格、消费指数、兑换比率、GDP以及其他一些宏观经济的变量都不服从平稳的分布.因此,去除过程的平稳性限制是时间序列建模中一个非常合理的要求.大量的文献都曾经讨论了非平稳过程所生成的参数线性模型和参数非线性模型,然而关于非参数和半参数非线性模型的讨论却非常少.事实上,非平稳时间序列的统计推断和平稳情形有着非常显著的差异.在传统的时间序列分析中,我们往往假设观测到的样本是独立同分布或者平稳混合相依以获得统计量的渐近性质.众所周知,要获得非参数和半参数估计在某一固定点x0的大样本性质(如渐近分布,相合性,收敛速度等),观测的过程需要满足一个最低要求,即随着样本容量趋于无穷,x0的任何领域都包含无穷多的观测量(即该过程会无穷多次返回到x0的领域中).因此,我们需要对所研究的非平稳过程加以一定的合理限制.我们将要考虑的是φ-不可约Harris常返马尔可夫过程,它涵盖了许多重要的非平稳过程,如随机游动和单位根过程.我们还将介绍含趋势的时变系数半参数模型.另一方面,人们对非参数估计的研究大多针对时间序列.对空间数据(随机场)的非参数统计推断方法的研究相对比较少.然而在近几年中,越来越多的人开始关注空间数据的统计建模.这是因为空间数据在很多领域中都有广泛的应用,如计量经济学,流行病学,环境科学,图像分析以及海洋学等.Ripley(1981)和Cressie(1991)研究了空间数据的参数建模方法.而近些年来,关于空间数据的非参数统计建模成为一个研究热点.例如,Tran(1990),Carbon,Tran&Wu(1997),Hallin,Lu&Tran(2001,2004a)讨论空间数据密度估计的各种渐近性质.Hallin,Lu&Tran(2004b)和Gao,Lu&Tj(?)stheim(2006)则分别研究了空间数据的非参数和半参数回归估计的有关方法和理论.我们将在第六章中考虑相依空间数据的局部线性M-估计的有关方法和理论.进一步,我们还将M-估计和边际积分方法相结合以研究空间可加模型中的估计问题.在本论文中,我们系统地研究了非平稳时间序列和空间数据的各种统计推断理论,包括估计方法,假设检验以及变量选择.本论文的主要工作和创新点如下.首先,我们研究非线性模型Yk=m(Xk)+εk,其中m(·)是回归函数,{Yk,Xk}是观测到的样本,{εk)是平稳的误差过程.当{Yk,Xk}是平稳序列(如独立同分布,平稳α-混合)时,很多学者考虑了回归函数m(·)及其导数m’(·)的稳健型非参数估计的各种统计性质.例如,当样本是独立同分布时,Fan&Jiang(2000)建立了m(·)及其导数m’(·)的局部线性M-估计及一步迭代算法的弱相合性和渐近正态性.Jiang&Mack(2001)则在平稳弱相依的情形下建立了估计的相合性和渐近正态性.Hong(2003)研究了稳健型非参数估计的Bahadur表示理论.据我们所知,很少有人讨论稳健型非参数估计在非平稳情形时的表现.我们将在第二章中考虑回归函数m(·)的局部线性M-估计在非平稳时间序列中的统计性质.事实上,非平稳局部线性M-估计的大样本性质的证明要比平稳情形更加复杂和困难.平稳序列极限定理中的许多有力工具,如遍历性定理、Lindeberg-Feller中心极限定理等,对非平稳的零常返过程都不再成立.因此,我们需要借助其他的途径和方法进行渐近分析.在第二章的证明中,我们主要利用了由马尔可夫过程的停时理论构造的独立性分解(见Nummelin1984).通过独立性分解,我们可将非平稳序列产生的部分和分为独立同分布部分以及渐近可忽略部分,从而使渐近性质的研究成为可能.我们首先在较弱的条件下得到了估计的弱收敛速度和渐近正态性.我们发现非平稳序列中局部线性M-估计的弱收敛速度和渐近正态分布的正则化速度比平稳情形时稍慢一些.然后,我们还研究了估计的强Bahadur表示理论并建立了估计的强相合性.由我们的渐近结论,可以直接推导出一些常用估计(如局部线性估计,局部最小一乘估计)在非平稳情形时的大样本性质.进一步,我们还采用一步迭代方法去求M-估计以减少计算量.当初始值满足一定的收敛速度时,我们证明了一步迭代算法得到的估计仍然具有渐近正态分布.通过Monte-Carlo例子的研究,我们发现即使观测数据被污染或者误差是重尾时,局部线性M-估计仍然有良好的表现.在第三章中,我们考虑部分线性模型Yk=Xkτα+g(Vk)+εk,k=1,…,n,其中{Vk)是一列β-零常返过程,{Xk)是一列平稳或非平稳过程,{εk)是平稳序列.当{Vk)是固定设计或严平稳随机序列而{Xk}是单位根过程时,Juhl&Xiao(2005)研究了部分线性模型的估计和检验理论.然而据我们所知,当{Vk)是非平稳时间序列,或者{Xk}和{Vk}都是非平稳时间序列时,尚无文献加以研究.所以在第三章中,我们主要考虑下面两种情形:(i){Xk)是严平稳的时间序列,{Vk)是非平稳的时间序列;(ii){Xk)和{Vk}都是非平稳的时间序列.当{Xk,Vk}是平稳的随机变量序列或者固定设计点列时,许多学者一般都采用普通的加权最小二乘方法(见§1.3)去估计参数α和函数g(·).当{Vk)为具有紧支撑的平稳变量(或固定设计)时,非参数估计的一致相合性可以保证加权最小二乘估计在大样本理论以及实际应用中都有很好的表现,参见Hardle,Liang&Gao(2000).然而,β-零常返马尔可夫过程{Vk}往往不存在紧支撑,这样就给我们的讨论带来很多困难.此外,由于最小二乘估计中所涉及的分母含有非平稳的随机变量,我们不能用平稳情形时的方法来研究估计的渐近性质.因此在第三章中,我们采用Robinson(1988)所提出的截尾最小二乘方法来估计回归系数α和函数g(·),以回避紧支撑的要求并建立估计的渐近性质.在证明过程中,我们利用了前面提到的独立性分解和零常返时间序列非参数估计的许多极限性质(见Karlsen&Tj(?)stheim 2001,Karlsen,Mykelbust&Tj(?)stheim 2007).有趣的是,我们发现无论{Xk}是平稳还是非平稳的序列,α的截尾最小二乘估计在适当正则化之后都是渐近正态的,并且收敛速度与平稳情形相同.这是由于α的估计的渐近分布以及渐近方差主要由{εk}和{Uk=Xk-E(Xk|Vk)}所决定,而{εk}和{Uk}在我们的论文中都是假设为平稳的序列.另一方面,回归函数g(·)的估计量的渐近分布和Karlsen,Mykelbust&Tjostheim(2007)中的定理3.1是一致的,其收敛速度要比平稳情形时稍慢一些.进一步,我们还建立了核密度估计和非参数估计的一致强相合性.在一致强相合性的证明过程中,我们主要利用独立性分解,截尾的方法和Bemstein不等式.我们不仅减弱了Karlsen&Tj(?)stheim(2001)中关于窗宽的条件,并将他们的结果(逐点强相合性)推广到了一致强相合性.由Monte-Carlo模拟例子,我们可以看出,在{Vk)是随机游动的情形时,我们的估计方法具有很好的表现.在第四章中,我们主要研究当{Vk}是随机游动过程时,非平稳部分线性模型的假设检验的有关方法和理论.之前,许多学者已讨论了平稳时间序列所产生的部分线性模型的假设检验问题,参见González-Manteiga & Aneiros-Pérez(2003),Fan&Huang(2005),Gao(2007).为研究假设检验统计量的渐近性质,我们往往需要处理其中的主导项-二次型部分.然而,非平稳时间序列生成的二次型的极限性质尚未得到充分的研究.这就给我们讨论非平稳情形半参数假设检验统计量的大样本性质造成很多的困难.在第四章中,我们首先考虑部分线性模型中参数α的假设检验问题.我们所采用的参数检验统计量是Wald型统计量.借助于第三章中关于α的截尾最小二乘估计的渐近正态性,我们可以证明该检验统计量在适当正则化后的渐近分布和平稳情形时的结果一样,并且Wilks现象成立.我们的第二项工作是考虑部分线性模型中的回归函数g(·)的假设检验问题.我们采用二次型统计量,并建立其渐近分布理论.我们不仅将Gao,King,Lu&Tj(?)stheim(2007)中关于非线性模型的渐近理论推广到部分线性模型,而且去掉了正态性的假设.在二次型检验统计量渐近性质的证明过程中,我们主要采用了鞅逼近的方法,即构造一列鞅差去逼近非平稳的二次型.然而,由于生成的鞅差序列并不是平稳的,这也给我们的证明增加了很多难度.此外,如何选取检验统计量的临界值也是实际应用中非常重要的问题.在有限样本情形,我们采用Bootstrap方法选取临界值.我们还研究了该方法的一些渐近性质,并将Li&Wang(1998)中的结论推广到非平稳部分线性的情形.Monte-Carlo模拟说明:我们所采用的检验统计量在有限样本情形下有很好的功效.近二十年来,含趋势的变系数模型在计量经济和金融数学中发挥了非常重要的作用.例如,反映单支股票的收益和市场指数或其他单支股票收益之间联系的市场模型,其回归系数在资本资产价格模型中通常被称为beta-系数.最新的一些研究(见Wang 2003)表明beta-系数可能随时间而变化.为了建立时变系数模型中的一些渐近性质,我们往往需要处理加权的部分和以及固定设计的二次型.而这并不是一项容易的工作.大量的文献讨论了参数和非参数的时变系数模型,如Robinson(1989),Phillips(2001),Cai(2007)等.然而,据我们所知,还很少有人讨论含时变系数的半参数模型.我们在第五章中介绍了一类部分时变系数模型以刻画时间序列建模中的非线性,非平稳性和趋势现象.该模型涵盖了许多重要的情形,如固定设计的部分线性模型以及前面所提到的时变系数模型.由于模型中的系数函数随着时间而变化,这就使得响应变量是一列含趋势的非平稳过程.在第五章中,我们首先采用局部线性平滑的PLS方法估计模型的回归系数和系数函数,并在较弱的条件下建立估计的渐近分布.由该结果出发,我们可以得到许多有用的推论,如Hardle,Liang&Gao(2000)中的定理2.1.1.然后,我们研究模型中参数和非参数的假设检验问题.我们所采用的检验统计量是Fan,Zhang&Zhang(2001)中所介绍的广义似然比统计量.在原假设成立的情况下,我们证明了该检验统计量在适当的正则化后是渐近服从χ2-分布的.此外,在统计建模中,如何选取显著性变量也是非常重要的问题.例如,在生物统计和计量经济的一些实例的初始分析中,我们往往需要处理高维的变量,有时候变量的维数甚至比样本容量还要大.但是,其中可能有相当一部分变量是不显著的,对模型的预测影响非常小.选取显著性变量可以简化模型,减少估计和检验等统计问题的运算量.因此,变量选择问题在近几十年来为很多学者所关注.在第五章中,我们利用惩罚最小二乘的方法去选取模型中的显著变量,并建立惩罚最小二乘估计的收敛速度,Sparsity性质和Oracle性质.进一步,我们还可以将估计和检验的方法应用于部分时变系数模型的一些推广形式,如异方差部分时变系数模型,广义时变系数模型等.通过Monte-Carlo模拟例子的分析,我们发现该模型以及相关统计推断方法可以非常好地应用于实际研究中.我们在前面已经指出:很多学者研究了平稳时间序列的局部线性M-估计理论.但据我们所知,很少有人讨论稳健型非参数估计在空间数据建模中的表现.我们将在第六章中系统研究局部线性M-估计在空间回归分析中的渐近性质.首先,我们建立了估计的弱相合性和渐近正态性.由这些结果出发,我们可以直接推导出局部线性估计,局部最小一乘估计在空间数据建模中的渐近性质.此外,在共变量的维数大于2的多元情形下,为克服维数灾难的影响,我们将可加建模方法应用于空间数据中.为估计可加模型的回归函数,我们将局部线性M-估计和边际积分的方法相结合,并建立估计的渐近分布.通过Monte-Carlo例子的研究,我们发现即使当空间数据被污染或者误差是重尾时,局部线性M-估计仍然有良好的表现.