论文部分内容阅读
摘 要:随着港口业和航运业的发展,集装箱吞吐量作为能够反映行业发展的重要指标越来越被人们所重视,对港口集装箱吞吐量的预测也成为人们研究的一个热点。研究方法包括一元线性回归预测,指数回归预测,灰色预测,神经网络预测法等,由于集装箱吞吐量具有很强的周期性和季节性,因此运用前面方法分析时很容易出现偏差。而ARIMA模型能弥补此缺陷。利用 ARIMA模型对上海港务集团2007-2012集装箱吞吐量进行实证分析,利用进行短期预测,并给出相应的建议。
关键词:集装箱 吞吐量 ARIMA模型
中图分类号:F5 文献标识码:A DOI:10.3969/j.issn.1672-0407.2013.03.003
一、研究背景
集装箱是由美国人在1921年发明并使用的,最早是用在铁路上。由于其运输量大,易装卸,节约环保等优点,随着时间的发展,已经成为当今海运最重要的运输方式。
港口集装箱吞吐量是反映港口生产经营活动成果的重要数量指标,港口集装箱吞吐量的流向构成、数量构成和物理分类构成是港口在国际、地区间水上交通链中的地位、作用和影响的最直接体现,也是衡量国家、地区、城市建设和发展的量化参考依据。对集装箱吞吐量进行预测是确定港口发展规模,规划港口总体布局,划分港区功能的重要依据之一,是港口规划中首要的前期工作。吞吐量预测的不正确,将会导致规划决策的失误,从而给港口带来经济损失,甚至会影响城市、地区、全国经济的发展。因此,对上海港集装箱吞吐量进行分析研究,将为其未来的发展、相关部门制定正确的决策提供理论指导。
在吞吐量预测模型的构建中有很多方法,如时间序列模型,神经网络模型,logistic模型等,其中时间序列模型是公认精度较高的模型。
二、模型简介
Arma模型是由G.E.P.Box和G.M.Jenkins创立在20世纪70年代创立,并在80年代中后期得到发展。由于在现实世界中,无论是自然科学和社会科学,存在很多重要的时间序列,分析时间序列的关系可以使我们更好的了解事物的发展规律。现在时间序列的分析方法大致分为两种:一、利用外部的因素对目标序列做出解释,例如线性回归,指数回归等。在外部指标容易得到时,这种方法适用,但现实中,往往缺乏相应的外部因素数据来支持人们的研究,同时人们在确定外部数据时,会认为的决定数据的选取,即使二者关系不大,从而使结果缺乏客观性。二、当外部因素数据不易确定时,可以运用序列的历史数据,根据其曾经的行为来判断未来的走势。如Arma模型。
Arma可以根据实际应用分为三个模型:
1.AR模型(自回归模型);通过把当期数据用它的前p期数据线性表示,P是阶数,即AR(p),一般可表示为:
X1=?椎1Xt-1+?椎2Xt-2+…+?椎pXt-p+?滋t (1)
式中,Xt为时间序列,?椎i(i=1,2,……p)为待估计的自回归系数,?滋t为误差项。引入滞后算子B,Bk=Xt/Xt-k,
且令?椎(B)=1-?椎1(B)-?椎2(B)2-…-?椎p(B)p,则(1)式可以简写为:
?椎(B)Xt=?滋t (2)
2.MA模型(移动平均模型);通过把当期数据的随机误差用它的前p期数据的随机误差线性表示,P是阶数,即MR(p),一般可表示为:Xt=?滋t-?兹1?滋t-1-?兹2?滋t-2-…-?兹q?滋t-q (3)
式中,?兹1(i=1,2,……,q)为待估计的移动平均系数。
引入滯后算子B,Bk=?滋t/?滋t-k,
且令?兹(B)=1-?兹1B-?兹2B2-…-?兹qBq则(3)式可以简写为:
Xt=?兹(B)?滋t (4)
3.ARMA模型(自回归移动平均模型);通过把当期数据和随机误差用它的前p期数据和随机误差线性表示,P是阶数,即ARMA(p),一般可表示为,
Xt=?椎1Xt-1+?椎2Xt-2+…+?椎pXt-p+?滋t-?兹1?滋t-1-?兹2?滋t-2-…-?兹q?滋t-q (5)
引入滞后算子B,则(5)式可以简写为:
?椎(B)Xt=?兹(B)?滋t(6)
三、建模步骤
1.一般的现实生活中的时间序列都不平稳,因此,首先通过观察样本自相关系数(ACF)和样本偏自相关系数(PACF)的值以及分析其稳定性,对模型进行识别。
2.运用差分对非平稳序列进行处理,根据ACF和PACF,选择阶数适当的ARMA(p,q)模型进行拟合。
3.估计模型中的位置参数的值,并检验其是否具有统计意义。
4.检查残差序列是否为白噪声序列。
5.利用通过检验的拟合模型,对序列的走势进行预测。
四、数据处理
通过左侧的自相关系数图,可以看出自相关系数并没有很快落入随机区间,趋近于0.所以该序列不稳定,ARIMA模型要求稳定的序列,因此我们做一阶差分来消除序列的趋势,以使其达到稳定。
由图二可以看出,通过一阶差分序列趋势基本消除,但k=12,k=24时自相关系数大大超出了随机区间的范围,仍然具有很强的季节波动性。包含季节性的时间序列也不能运用ARMA模型。因此我们对序列做一阶季节差分,如图3。
序列经过一阶季节差分后,季节性仍没有改观,我们尝试二阶季节差分,发现改进不明显,所以只做一阶季节差分。我们对序列进行平稳性检验如图4所示。
可以得出在显著水平为1%的情况下,序列是稳定的。
五、构建模型
对ARMA模型建模要参照自相关系数和偏相关系数,原始序列经过一阶差分和一阶季节差分后的自相关系数和偏相关系数如图三所示。经过差分后,序列仍具有较强的季节性,我们考虑使用ARIMA季节乘积模型,ARIMA(p,d,q)×(P,D,Q)s。需要为ARIMA模型定阶,如果自相关系数p阶截尾则,模型为MA(p),如果偏相关系数q阶截尾,则模型为AR(q)。如果自相关系数和偏相关系数都拖尾,则可采用ARMA模型。由图三知自相关系数在k=2时显著不为0,所以取q=1或2,偏相关系数在k=1时显著不为0,所以取p=1,序列进行了一阶差分和一阶季节差分,所以d=1,D=1。P和Q不容易确定,但P,Q取值一般不超过2,则共有18种可能的模型。
列举经检验得到:
ARIMA(0,1,1)×(1,1,1)12, AIC=7.427198, SC=7.553864在各个模型中最小,R2=0.760631在各个模型最大。其自回归方程AR的差分方程对应的特征根和移动平均部分MA所对应的特征根都在单位圆内,所以模型满足稳定性和可逆性。
如图6所示通过对残差值的Q检验,其残差值序列是白噪声序列,即对序列信息提取的比较充分。上海港务集团吞吐量预测模型为:
(1-B)(1-B12)(1+1816×B12)Xi=(1+1.4798×B)(1+0.9366×B12)ei
Xi为集装箱吞吐量序列,ei为残差值序列。
六、预测
根据ARIMA(0,1,1)×(1,1,1)12得到的趋势图,可以看出较为拟合,预测结果与实际较为拟合,具有一定的参考价值。
据此对上海港务集团2012年6月至2012年5月的集装箱量进行预测。
2011年6月-2012年5月集装箱吞吐量预测数据
Jun-11 Jul-11 Aug-11 Sep-11 Oct-11 Nov-11
249.7744 269.5455 267.1196 259.7901 251.4404 252.0324
Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12
251.4491 249.5184 200.6484 257.0075 255.4618 265.4057
单位万TEU
关键词:集装箱 吞吐量 ARIMA模型
中图分类号:F5 文献标识码:A DOI:10.3969/j.issn.1672-0407.2013.03.003
一、研究背景
集装箱是由美国人在1921年发明并使用的,最早是用在铁路上。由于其运输量大,易装卸,节约环保等优点,随着时间的发展,已经成为当今海运最重要的运输方式。
港口集装箱吞吐量是反映港口生产经营活动成果的重要数量指标,港口集装箱吞吐量的流向构成、数量构成和物理分类构成是港口在国际、地区间水上交通链中的地位、作用和影响的最直接体现,也是衡量国家、地区、城市建设和发展的量化参考依据。对集装箱吞吐量进行预测是确定港口发展规模,规划港口总体布局,划分港区功能的重要依据之一,是港口规划中首要的前期工作。吞吐量预测的不正确,将会导致规划决策的失误,从而给港口带来经济损失,甚至会影响城市、地区、全国经济的发展。因此,对上海港集装箱吞吐量进行分析研究,将为其未来的发展、相关部门制定正确的决策提供理论指导。
在吞吐量预测模型的构建中有很多方法,如时间序列模型,神经网络模型,logistic模型等,其中时间序列模型是公认精度较高的模型。
二、模型简介
Arma模型是由G.E.P.Box和G.M.Jenkins创立在20世纪70年代创立,并在80年代中后期得到发展。由于在现实世界中,无论是自然科学和社会科学,存在很多重要的时间序列,分析时间序列的关系可以使我们更好的了解事物的发展规律。现在时间序列的分析方法大致分为两种:一、利用外部的因素对目标序列做出解释,例如线性回归,指数回归等。在外部指标容易得到时,这种方法适用,但现实中,往往缺乏相应的外部因素数据来支持人们的研究,同时人们在确定外部数据时,会认为的决定数据的选取,即使二者关系不大,从而使结果缺乏客观性。二、当外部因素数据不易确定时,可以运用序列的历史数据,根据其曾经的行为来判断未来的走势。如Arma模型。
Arma可以根据实际应用分为三个模型:
1.AR模型(自回归模型);通过把当期数据用它的前p期数据线性表示,P是阶数,即AR(p),一般可表示为:
X1=?椎1Xt-1+?椎2Xt-2+…+?椎pXt-p+?滋t (1)
式中,Xt为时间序列,?椎i(i=1,2,……p)为待估计的自回归系数,?滋t为误差项。引入滞后算子B,Bk=Xt/Xt-k,
且令?椎(B)=1-?椎1(B)-?椎2(B)2-…-?椎p(B)p,则(1)式可以简写为:
?椎(B)Xt=?滋t (2)
2.MA模型(移动平均模型);通过把当期数据的随机误差用它的前p期数据的随机误差线性表示,P是阶数,即MR(p),一般可表示为:Xt=?滋t-?兹1?滋t-1-?兹2?滋t-2-…-?兹q?滋t-q (3)
式中,?兹1(i=1,2,……,q)为待估计的移动平均系数。
引入滯后算子B,Bk=?滋t/?滋t-k,
且令?兹(B)=1-?兹1B-?兹2B2-…-?兹qBq则(3)式可以简写为:
Xt=?兹(B)?滋t (4)
3.ARMA模型(自回归移动平均模型);通过把当期数据和随机误差用它的前p期数据和随机误差线性表示,P是阶数,即ARMA(p),一般可表示为,
Xt=?椎1Xt-1+?椎2Xt-2+…+?椎pXt-p+?滋t-?兹1?滋t-1-?兹2?滋t-2-…-?兹q?滋t-q (5)
引入滞后算子B,则(5)式可以简写为:
?椎(B)Xt=?兹(B)?滋t(6)
三、建模步骤
1.一般的现实生活中的时间序列都不平稳,因此,首先通过观察样本自相关系数(ACF)和样本偏自相关系数(PACF)的值以及分析其稳定性,对模型进行识别。
2.运用差分对非平稳序列进行处理,根据ACF和PACF,选择阶数适当的ARMA(p,q)模型进行拟合。
3.估计模型中的位置参数的值,并检验其是否具有统计意义。
4.检查残差序列是否为白噪声序列。
5.利用通过检验的拟合模型,对序列的走势进行预测。
四、数据处理
通过左侧的自相关系数图,可以看出自相关系数并没有很快落入随机区间,趋近于0.所以该序列不稳定,ARIMA模型要求稳定的序列,因此我们做一阶差分来消除序列的趋势,以使其达到稳定。
由图二可以看出,通过一阶差分序列趋势基本消除,但k=12,k=24时自相关系数大大超出了随机区间的范围,仍然具有很强的季节波动性。包含季节性的时间序列也不能运用ARMA模型。因此我们对序列做一阶季节差分,如图3。
序列经过一阶季节差分后,季节性仍没有改观,我们尝试二阶季节差分,发现改进不明显,所以只做一阶季节差分。我们对序列进行平稳性检验如图4所示。
可以得出在显著水平为1%的情况下,序列是稳定的。
五、构建模型
对ARMA模型建模要参照自相关系数和偏相关系数,原始序列经过一阶差分和一阶季节差分后的自相关系数和偏相关系数如图三所示。经过差分后,序列仍具有较强的季节性,我们考虑使用ARIMA季节乘积模型,ARIMA(p,d,q)×(P,D,Q)s。需要为ARIMA模型定阶,如果自相关系数p阶截尾则,模型为MA(p),如果偏相关系数q阶截尾,则模型为AR(q)。如果自相关系数和偏相关系数都拖尾,则可采用ARMA模型。由图三知自相关系数在k=2时显著不为0,所以取q=1或2,偏相关系数在k=1时显著不为0,所以取p=1,序列进行了一阶差分和一阶季节差分,所以d=1,D=1。P和Q不容易确定,但P,Q取值一般不超过2,则共有18种可能的模型。
列举经检验得到:
ARIMA(0,1,1)×(1,1,1)12, AIC=7.427198, SC=7.553864在各个模型中最小,R2=0.760631在各个模型最大。其自回归方程AR的差分方程对应的特征根和移动平均部分MA所对应的特征根都在单位圆内,所以模型满足稳定性和可逆性。
如图6所示通过对残差值的Q检验,其残差值序列是白噪声序列,即对序列信息提取的比较充分。上海港务集团吞吐量预测模型为:
(1-B)(1-B12)(1+1816×B12)Xi=(1+1.4798×B)(1+0.9366×B12)ei
Xi为集装箱吞吐量序列,ei为残差值序列。
六、预测
根据ARIMA(0,1,1)×(1,1,1)12得到的趋势图,可以看出较为拟合,预测结果与实际较为拟合,具有一定的参考价值。
据此对上海港务集团2012年6月至2012年5月的集装箱量进行预测。
2011年6月-2012年5月集装箱吞吐量预测数据
Jun-11 Jul-11 Aug-11 Sep-11 Oct-11 Nov-11
249.7744 269.5455 267.1196 259.7901 251.4404 252.0324
Dec-11 Jan-12 Feb-12 Mar-12 Apr-12 May-12
251.4491 249.5184 200.6484 257.0075 255.4618 265.4057
单位万TEU