论文部分内容阅读
[摘 要] 本文通过研究一个具体的经济时间序列数据,首先运用Box-Jenkins方法进行建模并给出结论,但通过模拟发现系数并不满足通常的大样本理论下的渐进正态的结论,从而得出相应结果不可信的结论,然后采用bootstrap方法进行估计,得出可信的结论,并对于广大科技工作者给出建议。本文的计算均由R软件编程实现。
[关键词] 时间序列 MA过程 R软件 Bootstrap
数据为1952年~2005年我们历年第三产业从业人数(百分比)数据。(数据来自国家统计局网站)
一、时间序列建模、估计和诊断
首先绘制原始的散点图,显然原数据不平稳,我们再绘制其增长率的时序图:
可以看到,不平稳的情况得到了很大的改善,因此,下面我们对我国第三产业从业人数的增长率进行研究。我们考察其自相关和偏自相关图:
我们可以看到,这个序列是一个MA(1)过程。进行参数估计,我们用两种估计方法,条件似然法CSS和精确似然法ML。结果见表1。
我们再对这两个模型作残差的自相关图诊断。
我们可以看到,CSS和ML方法建立的模型的残差均未显示序列相关,说明这两个模型拟合的很好经受住了检验。因此得到最终拟合的模型:Xt为第三产业从业人数增长率:Xt=εt+0.4465εt-1,t=1,2,…,(CSS);Xt=ε+0.4645εt-1,t=1,2,…,(ML)。但是我们看到,两个估计方法估计系数的置信区间均含0,这意味系数似乎应显著为0。那么这个结果可信吗?需注意,时间序列的理论只是论证大样本情形下,ARMA类模系数会渐进正态,但样本量要大到何种程度时,才会渐进正态,这是不得而知的,也正因为如此,我们通常估计的系数的标准误未必是可信的,况且,我们的样本量不大(仅32个),因此,上面的结果是值得怀疑的。其实,bootstrap方法的另一个吸引人之处是可帮助我们不必纠缠理论上的困惑而用大量的模拟得到我们的所需。
二、对时序数据模型标准误的Bootstrap估计
对时序进行bootstrap模拟前我们应先检验残差的序列相关性。上面通过残差的自相关图已得知无序列相关存在。下面再对两个模型残差作Ljung-Box检验,以诊断是否残差为白噪声即是否存在序列相关。
可看到,模型拟合的很好,未拒绝残差序列是白噪声的原假设,同自相关图得出的结论一致。因此可以对这组数据进行bootstrap。
下面采用采用参数bootstrap方法。首先有以下结论:定理:对于序列MA(1):Xt=εt+bεt-1,t=1,2,…,其中,当N→∞时,时依分布收敛于正态分布。据此,构造下述bootstrap算法:
1.从原始样本中有放回抽样若干次,这些样本称为bootstrap样本;
2.用这些bootstrap样本建立时序模型,并每次算出的标准误;
3.计算所有的标准误作为bootstrap估计的的标准误
分别模拟1000,5000,10000次的结果列于下表并与理论值相比较:
注:笔者的电脑配置为Intel CPU1.73GHz,1G内存,bootstrap10000次记录的系统所需时间为31.86秒。
最后,再画出基于CSS方法bootstrap10000次系数估计的QQ图,此图能准确揭示系数分布的真实情形。可以看到,在现有的样本量下系数并不渐进服从正态分布,因此基于大样本正态的推断显然不可信,而基于bootstrap方法估计的系数的标准误和其置信区间才是我们的所选。
[关键词] 时间序列 MA过程 R软件 Bootstrap
数据为1952年~2005年我们历年第三产业从业人数(百分比)数据。(数据来自国家统计局网站)
一、时间序列建模、估计和诊断
首先绘制原始的散点图,显然原数据不平稳,我们再绘制其增长率的时序图:
可以看到,不平稳的情况得到了很大的改善,因此,下面我们对我国第三产业从业人数的增长率进行研究。我们考察其自相关和偏自相关图:
我们可以看到,这个序列是一个MA(1)过程。进行参数估计,我们用两种估计方法,条件似然法CSS和精确似然法ML。结果见表1。
我们再对这两个模型作残差的自相关图诊断。
我们可以看到,CSS和ML方法建立的模型的残差均未显示序列相关,说明这两个模型拟合的很好经受住了检验。因此得到最终拟合的模型:Xt为第三产业从业人数增长率:Xt=εt+0.4465εt-1,t=1,2,…,(CSS);Xt=ε+0.4645εt-1,t=1,2,…,(ML)。但是我们看到,两个估计方法估计系数的置信区间均含0,这意味系数似乎应显著为0。那么这个结果可信吗?需注意,时间序列的理论只是论证大样本情形下,ARMA类模系数会渐进正态,但样本量要大到何种程度时,才会渐进正态,这是不得而知的,也正因为如此,我们通常估计的系数的标准误未必是可信的,况且,我们的样本量不大(仅32个),因此,上面的结果是值得怀疑的。其实,bootstrap方法的另一个吸引人之处是可帮助我们不必纠缠理论上的困惑而用大量的模拟得到我们的所需。
二、对时序数据模型标准误的Bootstrap估计
对时序进行bootstrap模拟前我们应先检验残差的序列相关性。上面通过残差的自相关图已得知无序列相关存在。下面再对两个模型残差作Ljung-Box检验,以诊断是否残差为白噪声即是否存在序列相关。
可看到,模型拟合的很好,未拒绝残差序列是白噪声的原假设,同自相关图得出的结论一致。因此可以对这组数据进行bootstrap。
下面采用采用参数bootstrap方法。首先有以下结论:定理:对于序列MA(1):Xt=εt+bεt-1,t=1,2,…,其中,当N→∞时,时依分布收敛于正态分布。据此,构造下述bootstrap算法:
1.从原始样本中有放回抽样若干次,这些样本称为bootstrap样本;
2.用这些bootstrap样本建立时序模型,并每次算出的标准误;
3.计算所有的标准误作为bootstrap估计的的标准误
分别模拟1000,5000,10000次的结果列于下表并与理论值相比较:
注:笔者的电脑配置为Intel CPU1.73GHz,1G内存,bootstrap10000次记录的系统所需时间为31.86秒。
最后,再画出基于CSS方法bootstrap10000次系数估计的QQ图,此图能准确揭示系数分布的真实情形。可以看到,在现有的样本量下系数并不渐进服从正态分布,因此基于大样本正态的推断显然不可信,而基于bootstrap方法估计的系数的标准误和其置信区间才是我们的所选。