论文部分内容阅读
摘 要:煤炭在中国经济发展中占据着重要的位置,它不仅是工业的主要能源,也是民用的主要能源和化工原料,并且是我国出口的商品,它在国民经济中具有重要的战略地位。近几年来,我国煤炭的价格一直处于较大的波动范围,特别是近几年的煤炭大幅下降引起了社会的广泛关注。煤炭作为基础能源,需求关系的变化,必然会导致价格的变化。煤炭作为国家主要能源,客观分析个判定煤炭价格的影响因素,了解预测未来煤炭的价格,对于掌握决策的主动权,是非常重要的。本文主要对某市2006年7月3日起至2020年4月31日的煤炭价格相关数据以及从网络上收集的从2019年5月到2020年3月的煤炭价格相关数据进行分析,运用相关性分析中的灰色关联分析,建立了灰色模型,得到了影响某市煤价格的主要因素的排序;其次,用python软件分析附件1中煤炭价格数据,建立了ARIMA模型,预测了未来31天、35周、36个月的煤炭价格;然后,利用回归分析,建立了多元线性回归方程,综合考虑了未来各种情况(例如突发事件)引起的煤炭价格影响因素在结构性和重要性方面的变化。
关键词:煤炭价格;灰色关联分析;SPSS软件;ARIMA模型;逐步回归方法
【一】基本假设
1.查找得到的数据真实可靠,可以作为分析依据,且每周/月/年/煤炭价格的均值为全国平均价格;
2.假设秦皇岛港动力煤的月平均价格可以直接视作该月各周其价格的均值。
3.短期内煤炭价格及需求量不受国家政策的强制干预。
【二】符号说明
【三】 问题分析
首先要给出影响煤炭价格的重要因素并排序,因此需要搜索影响煤炭价格的指标数据,由于数据较少,我们认为是灰色系统,利用灰色关联分析求出煤炭价格与指标之间的两两相关性并排序。接着我们对煤炭价格进行预测,需要掌握一定量的数据。通过附件1可以获得我国某市2006年7月至2020年4月的煤炭价格。通过对所得到的数据进行分析,发现煤炭价格与时间呈非线性关系,可以建立煤炭价格与时间序列之间的时间序列模型,并据此对于煤炭未来价格进行预测。最后,为了得到精准的预测模型,且考虑变量间的多重共线性问题,我们采用逐步回归方法使用SPSS,找到一个能描述煤炭价格变化的多元线性回归方程。
【四】 建模过程
4.1.1模型准备
1.数据收集
我们从网络上收集到2019年5月到2020年3月份煤炭进口量/万吨,煤炭出口量/万吨,全国铁路煤炭发运量/万吨,居民消费者指数价格指数(上月=100),全国煤炭企业库存/万吨,GDP,煤炭加工成本指数,秦皇岛平均最高气温/℃。
2. 数据预处理
鉴于数据收集之繁琐且困难,在保证绝大部分数据真实可信的条件下,我们对某些自变量(煤炭出口量,全国煤炭企业库存,煤炭产量,煤炭进口量)值进行临近线性插值和算术平均处理,以及对因变量煤炭价格进行平均处理,求得每月平均价格。大致数据如下表:
3. 灰色关联分析介绍
对于都有两个系统之间的因素,其随时间或不同对象而变化的关联性大小的度量称为关联度,在系统发展过程中,若两个因素变化的趋势具有一致性及同步变化程度较高,即可为两者关联程度较高,反之则较低。因此,灰色关联分析方法是根据因素之间发展趋势的相似或相异程度,以及灰色关联度作为衡量因素间关联程度的一种方法,在实际获取数据中,常常受到客观因素和人为因素的影响,使获得的数据部分正确,部分不准确,具有一定灰度;并且传统的数理统计要求样本服从某个典型的概率分布,要求各数据与系统特征数据之间呈线性关系且各因素之间彼此无关,这种要求在本题中难以满足。因此,我们选择灰色关联分析方法进行量化分析,建立数学模型得出影响某市煤价格的主要因素的排序。
4.1.2模型建立一
1.确定分析序列
灰色关联度分析的进行需要确定参考序列,反映系统特征的数据列,还需要确定比较数据序列,是影响系统变化的数据序列。
设为母序列(因变量)煤炭价格为X0,子序列(自变量)依次为X1,X2 ,…,X9
2.对数据进行预处理
为了消除量纲以及缩小变量范围简化计算,我们母序列和子序列中的每个指標进行预处理。令
,其中为各序列的均值。
3.序列绝对差
对标准化后的参考序列与比较序列进行差值运算并取绝对值,计算得出每列数列的最大差与最小差。数学表达式如下:
4.定义关联系数
5.计算灰色关联度
灰色关联度是对灰色关联系数做均值运算,将参考序列与比较序列在各个时刻所体现的关联度数值,转变为两序列间的关联度数值,以λ(0,k)代表母序列X0与子序列Xi之间的灰色关联度,则计算公式表示为:
4.1.3 模型求解
利用Matlab R2017a平台(代码见附录),我们对母序列X0与子序列Xi灰色关联分析度进行求解,子序列中各个指标的灰色关联度分别为:
由计算结果可知,从2019年5月1日至2020年4月30日,影响秦皇岛煤炭价格的主要因素依次排序为经济水平,煤炭生产成本,煤炭产量,季节因素。
4.2.1模型建立二
附件1中给2006-2020年某市所在“周”的煤炭价格最低价值、最高价值、平均值,为了预测此趋势之下预测未来31天、35周、36个月的煤炭价格的变化,通过煤炭价格平均值的变化研究来对煤炭未来价格的发展趋势作出预测分析。建立时间序列模型,首先检索到原始数据时间间隔没有规律,然后对附件1中的数据进行重采样。
随后建立模型:
4.2.2模型求解
1.读取数据 我们先读取附件1给出的煤炭价格数据,并选择我们需要的数据,由于原始数据的时间索引间隔是没有规律的,所以我们需要对数据进行重采样,根据问题二的要求,我们分别以天、周、月为单位对数据重采样,并取平均价格那一列作为预测数据。
我们把附件1中某市煤炭价格以日平均量为单位的以折线图的形式表示出来,
通过分析可以看到上图数据的平稳性较差,需要对数据做差分。
3、平稳化处理
因为原序列呈现非线性趋势,需要进行一阶差分
4.时间序列定阶
定阶问题,主要是确定p,d,q三个参数,差分的阶数d一般通过观察图示,1阶或2阶即可。我们主要确定p和q的值,通过以下两个函数确定。
(1)自相关函数ACF
自相关函数ACF描述的是时间序列观测值与其过去的观测值之间的线性相关性。计算公式如下:
其中k代表滞后期数,如果k=2,则代表yt和yt-2。
(2)偏自相关函数PACF
偏自相关函数PACF描述的是在给定中间观测值的条件下,时间序列观测值预期过去的观测值之间的线性相关性。
综上,p和q的阶数确定规则如下:
通过对PACF和ACF的分析,我们可以得到PACF图和ACF图:
5.信息准则定阶
通过拖尾和截尾对模型进行定阶的方法,往往具有很强的主观性。因此我们可以通过信息准则定阶,常用的信息准则函数有下面2种:
AIC准则
AIC准则全称为全称是最小化信息量准则(Akaike Information Criterion),计算公式如下:
其中L表示模型的极大似然函数,K表示模型参数个数。
AIC=-2ln(L)+2k
BIC准则
AIC准则存在一定的不足之处。当样本容量很大时,在AIC准则中拟合误差提供的信息就要受到样本容量的放大,而参数个数的惩罚因子却和样本容量没关系,因此当样本容量很大时,使用AIC准则选择的模型不收敛与真实模型,它通常比真实模型所含的未知参数个数要多。BIC贝叶斯信息准则弥补了AIC的不足,计算公式如下:
其中 n 表示样本容量。
得出结果如下:
我们取BIC的结果,因此可以确定p、q的值分别为1、1
6.训练模型,预测数据
通过求解模型,我们可以得到所预测的未来31天、35周、36个月的煤炭价格
4.3.1模型准备
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关的现象,我们称这种现象为多重共线性。适度的多重共线性不成问题,但当出现严重共线性问题时,会导致分析结果不稳定,出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著,本不显著的自变量却呈现出显著性,这种情况下就需要消除多重共线性的影响。为了消除多重共线性对回归结果的影响,对回归模型做出准确有效地估计,我们采用向后逐步回归方法,筛选自变量。
4.3.2模型介绍
逐步回归求解最优回归方程的重要方法,它的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
4.3.3模型建立
回归模型建立,涉及n个自变量的多元线性回归模型可表示为,
βi为未知的回归系数,ε为无规则但服从正态分布的扰动项。
4.3.4.模型求解
1.回歸方程确定
首先申明本次回归自变量为第一问所收集的9个指标,接下来我们利用spss软件对这9个指标进行向前逐步回归。最后得到煤炭价格关于生产成本指数与秦皇岛日最高气温的二元线性回归方程。
可以看到回归方程y=1.548x8+0.696x9+422.072(x8是煤炭生产成本指数,x9是秦皇岛日均最高气温),且每个回归系数对应t统计量的p<0.05,说明这些指标都与因变量线性关系显著。
2.回归模型的显著性检验
可以看到,经选择后相关系数为0.899,且F统计量对应p值<0.05,说明回归方程线性显著。
4.3.5模型结果讨论
根据回归方程我们得出以下结论:
1.煤炭价格与煤炭生产成本呈明显正相关,且生产成本上升1个百分点,煤炭价格会随之上升1.548个百分点。
2.煤炭价格与气温有关,说明煤炭价格波动是有着一定的季节性,从本模型中,可以看到,温度每上升一度,煤炭价格上升0.696元。一定程度上来说,夏季的煤炭价格比冬季的煤炭价格更高。
3.煤炭价格与市场经济水平有一定关系,由于煤炭生产成本与市场经济有着密不可分的关系,可以说,煤炭价格的决定与市场经济制度有着强烈的正相关性。
【五】模型的综合评价及推广
5.1 模型的优缺点
模型的优点:
1.没有采用片面主观的层次分析法,而是引入相关性分析中的灰色关联度分析方法。该方法非常适合数据稀少,且自变量与因变量具有大致变化趋势的情况。可以减少由于信息不对称带来的损失。
2.ARIMA模型,使用方便,且对短期情况的预计结果较为准确。
3.原有数据中存在缺失值,利用SPSS处理了缺失值问题。
模型的缺点:
1.ARIMA模型预测时序数据时,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。
2.影响煤炭价格变化的指标数据难以寻找,导致回归方程具有很大的片面性。同时只利用了煤炭近一年的价格数据进行逐步回归,难以提供长期预测。
5.2模型的推广
灰色关联分析方法不仅适用于煤炭的综合评价这一类问题,而且,类似的可以用来研究解决诸如工程方案的综合评价问题,灰色关联分析方法在实际中非常有推广应用价值。时间序列模型可以在有限个样本总量的情况下,预测短期的经济形势、规避风险等。
参考文献:
[1] 姜启源,谢金星,叶俊,数学模型(第四版)[M],北京高等教育出版社,2011年
[2]司玲君,煤炭价格波动的影响因素研究[J],现代经济信息,2018年,01期:350
[3]张同功,雷仲敏,煤炭价格波动的影响因素分析[J],中国能源,2005年,12期,16-19
关键词:煤炭价格;灰色关联分析;SPSS软件;ARIMA模型;逐步回归方法
【一】基本假设
1.查找得到的数据真实可靠,可以作为分析依据,且每周/月/年/煤炭价格的均值为全国平均价格;
2.假设秦皇岛港动力煤的月平均价格可以直接视作该月各周其价格的均值。
3.短期内煤炭价格及需求量不受国家政策的强制干预。
【二】符号说明
【三】 问题分析
首先要给出影响煤炭价格的重要因素并排序,因此需要搜索影响煤炭价格的指标数据,由于数据较少,我们认为是灰色系统,利用灰色关联分析求出煤炭价格与指标之间的两两相关性并排序。接着我们对煤炭价格进行预测,需要掌握一定量的数据。通过附件1可以获得我国某市2006年7月至2020年4月的煤炭价格。通过对所得到的数据进行分析,发现煤炭价格与时间呈非线性关系,可以建立煤炭价格与时间序列之间的时间序列模型,并据此对于煤炭未来价格进行预测。最后,为了得到精准的预测模型,且考虑变量间的多重共线性问题,我们采用逐步回归方法使用SPSS,找到一个能描述煤炭价格变化的多元线性回归方程。
【四】 建模过程
4.1.1模型准备
1.数据收集
我们从网络上收集到2019年5月到2020年3月份煤炭进口量/万吨,煤炭出口量/万吨,全国铁路煤炭发运量/万吨,居民消费者指数价格指数(上月=100),全国煤炭企业库存/万吨,GDP,煤炭加工成本指数,秦皇岛平均最高气温/℃。
2. 数据预处理
鉴于数据收集之繁琐且困难,在保证绝大部分数据真实可信的条件下,我们对某些自变量(煤炭出口量,全国煤炭企业库存,煤炭产量,煤炭进口量)值进行临近线性插值和算术平均处理,以及对因变量煤炭价格进行平均处理,求得每月平均价格。大致数据如下表:
3. 灰色关联分析介绍
对于都有两个系统之间的因素,其随时间或不同对象而变化的关联性大小的度量称为关联度,在系统发展过程中,若两个因素变化的趋势具有一致性及同步变化程度较高,即可为两者关联程度较高,反之则较低。因此,灰色关联分析方法是根据因素之间发展趋势的相似或相异程度,以及灰色关联度作为衡量因素间关联程度的一种方法,在实际获取数据中,常常受到客观因素和人为因素的影响,使获得的数据部分正确,部分不准确,具有一定灰度;并且传统的数理统计要求样本服从某个典型的概率分布,要求各数据与系统特征数据之间呈线性关系且各因素之间彼此无关,这种要求在本题中难以满足。因此,我们选择灰色关联分析方法进行量化分析,建立数学模型得出影响某市煤价格的主要因素的排序。
4.1.2模型建立一
1.确定分析序列
灰色关联度分析的进行需要确定参考序列,反映系统特征的数据列,还需要确定比较数据序列,是影响系统变化的数据序列。
设为母序列(因变量)煤炭价格为X0,子序列(自变量)依次为X1,X2 ,…,X9
2.对数据进行预处理
为了消除量纲以及缩小变量范围简化计算,我们母序列和子序列中的每个指標进行预处理。令
,其中为各序列的均值。
3.序列绝对差
对标准化后的参考序列与比较序列进行差值运算并取绝对值,计算得出每列数列的最大差与最小差。数学表达式如下:
4.定义关联系数
5.计算灰色关联度
灰色关联度是对灰色关联系数做均值运算,将参考序列与比较序列在各个时刻所体现的关联度数值,转变为两序列间的关联度数值,以λ(0,k)代表母序列X0与子序列Xi之间的灰色关联度,则计算公式表示为:
4.1.3 模型求解
利用Matlab R2017a平台(代码见附录),我们对母序列X0与子序列Xi灰色关联分析度进行求解,子序列中各个指标的灰色关联度分别为:
由计算结果可知,从2019年5月1日至2020年4月30日,影响秦皇岛煤炭价格的主要因素依次排序为经济水平,煤炭生产成本,煤炭产量,季节因素。
4.2.1模型建立二
附件1中给2006-2020年某市所在“周”的煤炭价格最低价值、最高价值、平均值,为了预测此趋势之下预测未来31天、35周、36个月的煤炭价格的变化,通过煤炭价格平均值的变化研究来对煤炭未来价格的发展趋势作出预测分析。建立时间序列模型,首先检索到原始数据时间间隔没有规律,然后对附件1中的数据进行重采样。
随后建立模型:
4.2.2模型求解
1.读取数据 我们先读取附件1给出的煤炭价格数据,并选择我们需要的数据,由于原始数据的时间索引间隔是没有规律的,所以我们需要对数据进行重采样,根据问题二的要求,我们分别以天、周、月为单位对数据重采样,并取平均价格那一列作为预测数据。
我们把附件1中某市煤炭价格以日平均量为单位的以折线图的形式表示出来,
通过分析可以看到上图数据的平稳性较差,需要对数据做差分。
3、平稳化处理
因为原序列呈现非线性趋势,需要进行一阶差分
4.时间序列定阶
定阶问题,主要是确定p,d,q三个参数,差分的阶数d一般通过观察图示,1阶或2阶即可。我们主要确定p和q的值,通过以下两个函数确定。
(1)自相关函数ACF
自相关函数ACF描述的是时间序列观测值与其过去的观测值之间的线性相关性。计算公式如下:
其中k代表滞后期数,如果k=2,则代表yt和yt-2。
(2)偏自相关函数PACF
偏自相关函数PACF描述的是在给定中间观测值的条件下,时间序列观测值预期过去的观测值之间的线性相关性。
综上,p和q的阶数确定规则如下:
通过对PACF和ACF的分析,我们可以得到PACF图和ACF图:
5.信息准则定阶
通过拖尾和截尾对模型进行定阶的方法,往往具有很强的主观性。因此我们可以通过信息准则定阶,常用的信息准则函数有下面2种:
AIC准则
AIC准则全称为全称是最小化信息量准则(Akaike Information Criterion),计算公式如下:
其中L表示模型的极大似然函数,K表示模型参数个数。
AIC=-2ln(L)+2k
BIC准则
AIC准则存在一定的不足之处。当样本容量很大时,在AIC准则中拟合误差提供的信息就要受到样本容量的放大,而参数个数的惩罚因子却和样本容量没关系,因此当样本容量很大时,使用AIC准则选择的模型不收敛与真实模型,它通常比真实模型所含的未知参数个数要多。BIC贝叶斯信息准则弥补了AIC的不足,计算公式如下:
其中 n 表示样本容量。
得出结果如下:
我们取BIC的结果,因此可以确定p、q的值分别为1、1
6.训练模型,预测数据
通过求解模型,我们可以得到所预测的未来31天、35周、36个月的煤炭价格
4.3.1模型准备
回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关的现象,我们称这种现象为多重共线性。适度的多重共线性不成问题,但当出现严重共线性问题时,会导致分析结果不稳定,出现回归系数的符号与实际情况完全相反的情况。本应该显著的自变量不显著,本不显著的自变量却呈现出显著性,这种情况下就需要消除多重共线性的影响。为了消除多重共线性对回归结果的影响,对回归模型做出准确有效地估计,我们采用向后逐步回归方法,筛选自变量。
4.3.2模型介绍
逐步回归求解最优回归方程的重要方法,它的基本思想是将变量逐个引入模型,每引入一个解释变量后都要进行F检验,并对已经选入的解释变量逐个进行t检验,当原来引入的解释变量由于后面解释变量的引入变得不再显著时,则将其删除。以确保每次引入新的变量之前回归方程中只包含显著性变量。这是一个反复的过程,直到既没有显著的解释变量选入回归方程,也没有不显著的解释变量从回归方程中剔除为止。以保证最后所得到的解释变量集是最优的。
4.3.3模型建立
回归模型建立,涉及n个自变量的多元线性回归模型可表示为,
βi为未知的回归系数,ε为无规则但服从正态分布的扰动项。
4.3.4.模型求解
1.回歸方程确定
首先申明本次回归自变量为第一问所收集的9个指标,接下来我们利用spss软件对这9个指标进行向前逐步回归。最后得到煤炭价格关于生产成本指数与秦皇岛日最高气温的二元线性回归方程。
可以看到回归方程y=1.548x8+0.696x9+422.072(x8是煤炭生产成本指数,x9是秦皇岛日均最高气温),且每个回归系数对应t统计量的p<0.05,说明这些指标都与因变量线性关系显著。
2.回归模型的显著性检验
可以看到,经选择后相关系数为0.899,且F统计量对应p值<0.05,说明回归方程线性显著。
4.3.5模型结果讨论
根据回归方程我们得出以下结论:
1.煤炭价格与煤炭生产成本呈明显正相关,且生产成本上升1个百分点,煤炭价格会随之上升1.548个百分点。
2.煤炭价格与气温有关,说明煤炭价格波动是有着一定的季节性,从本模型中,可以看到,温度每上升一度,煤炭价格上升0.696元。一定程度上来说,夏季的煤炭价格比冬季的煤炭价格更高。
3.煤炭价格与市场经济水平有一定关系,由于煤炭生产成本与市场经济有着密不可分的关系,可以说,煤炭价格的决定与市场经济制度有着强烈的正相关性。
【五】模型的综合评价及推广
5.1 模型的优缺点
模型的优点:
1.没有采用片面主观的层次分析法,而是引入相关性分析中的灰色关联度分析方法。该方法非常适合数据稀少,且自变量与因变量具有大致变化趋势的情况。可以减少由于信息不对称带来的损失。
2.ARIMA模型,使用方便,且对短期情况的预计结果较为准确。
3.原有数据中存在缺失值,利用SPSS处理了缺失值问题。
模型的缺点:
1.ARIMA模型预测时序数据时,必须是稳定的,如果不稳定的数据,是无法捕捉到规律的。
2.影响煤炭价格变化的指标数据难以寻找,导致回归方程具有很大的片面性。同时只利用了煤炭近一年的价格数据进行逐步回归,难以提供长期预测。
5.2模型的推广
灰色关联分析方法不仅适用于煤炭的综合评价这一类问题,而且,类似的可以用来研究解决诸如工程方案的综合评价问题,灰色关联分析方法在实际中非常有推广应用价值。时间序列模型可以在有限个样本总量的情况下,预测短期的经济形势、规避风险等。
参考文献:
[1] 姜启源,谢金星,叶俊,数学模型(第四版)[M],北京高等教育出版社,2011年
[2]司玲君,煤炭价格波动的影响因素研究[J],现代经济信息,2018年,01期:350
[3]张同功,雷仲敏,煤炭价格波动的影响因素分析[J],中国能源,2005年,12期,16-19