基于SARIMA-SVR组合模型的空气质量指数预测

来源 :河北工业科技 | 被引量 : 0次 | 上传用户:xiaozi134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:空气质量指数(AQI)在波动中既具有整体的时间序列线性特征和明显的季节性波动周期,又具有多种因素影响的不确定性,为了提高AQI的预测精度,基于Ri386 3.3.3和Matlab R2014a两种编程软件,提出了一种同时具有线性和非线性的复合特征的时间序列预测模型——SARIMA-SVR组合模型。以太原市2014年1月—2019年7月的AQI月均值数据为基础,利用SARIMA时间序列模型进行线性预测,利用SVR模型对残差进行非线性预测,加和得到组合预测模型的预测结果,分析比较SARIMA,SVR和SARIMA-SVR这3种模型的预测结果和平均绝对百分比误差。结果表明,组合预测模型发挥了2种模型各自的优势,相较于单一预测模型的预测结果而言,其预测精度更高,稳定性更好。通过此模型得到的空气质量预测结果不仅可为人们的日常生活提供指导,而且可为大气污染的防治工作提供科学依据和借鉴意义。
  关键词:应用数学;SARIMA;SVR;SARIMA-SVR组合模型;空气质量指数预测
  中图分类号:O29;X84 文献标志码:A
  doi: 10.7535/hbgykj.2019yx06011
  文章编号:1008-1534(2019)06-0436-06
  Abstract:Air quality index (AQI) both has volatility of time series of the whole linear features, obvious seasonal fluctuation cycle, at the same time has a variety of factors of uncertainty. In order to improve the prediction accuracy of AQI, based on Ri386 3.3.3 and Matlab R2014a programming software, this paper proposes a composite characteristics of both linear and nonlinear time series prediction model,namely SARIMA-SVR combined model. Based on the monthly average data of AQI from January 2014 to July 2019 in Taiyuan, SARIMA time series model is first used for linear prediction, then SVR model is used for non-linear prediction of residual, and finally the combined prediction model is added and obtained. By analyzing and comparing the prediction results and average absolute percentage errors of SARIMA, SVR and SARIMA-SVR models, the results show that the combined prediction model gives full play to the advantages of the two models, and its prediction accuracy is higher and its stability is better than that of the single prediction model. The prediction results of air quality by this model can provide reference for the prevention and control of air pollution.
  Keywords:applied mathematics; SARIMA; SVR; SARIMA-SVR combination model; air quality index prediction
  空氣质量状况越来越受到人们的关注,国内外研究人员提出了针对空气质量预测的模型,李婷婷等[1]运用经验模态分解的方法对原始的AQI数据进行多尺度分解,运用灰色预测、ARIMA模型、BP神经网络和SVR等方法进行趋势序列预测,将平均相对误差较小的前3种单项预测方法进行组合,进而得到最终预测结果,结果表明,基于经验模态分解的空气质量指数组合预测方法具有较高的预测精度和良好的适用性。还有一些学者运用时间序列模型[2-8]和优化SVM的方法[9]完成了空气质量的预测。但是,由于空气质量受多种不确定性因素的影响,单一预测方法没有拟合AQI值变化的非线性部分,因此预测误差相对较大。针对这一问题,笔者提出:首先利用SARIMA时间序列模型对AQI值进行趋势预测,其次运用SVR模型对残差进行预测,也就是考虑了不确定性的干扰性因素,并将残差的预测结果与SARIMA模型预测的趋势数据进行加和,形成SARIMA-SVR组合预测模型,使之更能适应AQI时间序列的发展趋势,预测精度更高,为预测空气的AQI值提供了新的思路和方法。
  1 理论介绍
  1.1 SARIMA模型原理
  SARIMA(p,d,q)×(P,D,Q)s模型是在ARIMA模型中增加了季节项,称为季节性自回归滑动平均模型,ARIMA模型主要分析和研究时间序列问题。此模型是先将非平稳时间序列转化为平稳时间序列,然后将因变量仅对它的滞后值以及随机误差项的现值和滞后值进行回归所建立起来的一种模型[10]。ARIMA模型将预测指标随时间推移而形成的数据序列看作是一个随机序列,这组随机变量所具有的依存关系体现着原始数据在时间上的延续性,它既受外部因素的影响,又有其自身的变动规律。   ARIMA模型包含自回归模型AR(p)、移动平均模型MA(q)和自回归移动平均模型ARMA(p,q),ARIMA模型的形式如下:
  SARIMA模型与一般的ARIMA模型一样,首先对季节性因素进行D阶差分,其次用差分后周期为s的季节性时间序列建立一般的ARIMA模型,其形式如下:
  1.2 SVR模型原理
  支持向量回归机(support vector regression,SVR)是支持向量对于回归问题的算法[11]。支持向量回归的基本原理是将所有数据样本进行学习训练使其都分布在两条直线之间,并且所有点到直线的总偏差最小,求此时两条线之间的最大距离,也就是支持向量回归的最优超平面。使用支持向量机做回归时,其算法过程如下。
  2 数据采集及分析
  此次测试使用的样本数据来源于中国空气质量在线监测分析平台历史数据网(https://www.aqistudy.cn/historydata/)发布的太原市空气质量历史数据,选取的样本数据为太原市2014年1月—2019年7月的月均值数据,共计67组数据。图1为太原市月度空气质量指数折线图。由图1可以看出,AQI历史数据具有整体的周期性与季节性,以一年12个月为一个循环周期,且季节性也较为明显,可以看出在每年冬季(12月至次年的2月)的AQI值最高,夏季(6月至8月)的AQI值最低。
  3 SARIMA-SVR组合预测模型原理
  由前面分析可以看出,AQI值序列整体具有时间周期性特征,同时又会有异常数据的出现,因此具有复合特征,即其数据序列包括线性时间序列分量,也包含非线性序列分量。所以单一的预测模型对AQI值的预测精度较低,对人类生活的指导意义相对较小。由于SARIMA时间序列预测模型对线性预测具有优势,且支持向量回归机(SVR)模型对少量的、非线性的数据预测具有优势,这2个预测模型優势互补,因此笔者将二者组合起来进行AQI的指数预测。
  4 空气质量指数预测结果及分析
  4.1 SARIMA模型预测结果
  在本节中选取前4年共48组数据(2014年1月—2017年12月)作为SARIMA预测模型的历史数据,由图3可知,原始的AQI数据有递增趋势,故该序列不平稳,对其进行一次差分后所得折线图如图4所示,可以看出差分后的时序图在均值为0附近波动,不会随着时间的发展而改变。图5和图6分别为一次差分后数据序列的自相关图和偏相关图,可以发现,自相关图显示滞后一阶自相关值基本没有超过边界,虽然5阶自相关值超出边界,很可能属于偶然现象,偏相关图中在4阶时显著不为0,根据以上自相关和偏相关图进行阶数的一个初步判断,又根据R语言中的auto.arima()函数进行自动定阶,得到最优的SARIMA模型为(2,0,0)(0,1,1)[12],如图7为SARIMA(2,0,0)(0,1,1)[12]模型的预测结果折线图。
  4.2 SVR模型预测结果
  采用的数据为太原市2014年1月至2019年7月AQI月度数据,共67组,数据维数为一维,利用前3天的AQI值来预测后一天的AQI值,选取前44组的数据作为训练数据集,剩余的数据作为训练集,在Matlab2014a软件上进行多次实验,得到最终的预测结果如图8所示。
  4.3 SARIMA-SVR组合模型预测结果
  SARIMA模型能很好地捕捉到时间序列的周期性,如图9所示。
  由图9可以看出,单一模型对峰值的预测存在较大误差,SVR模型能较好地解决小样本、非线性、高维数和局部极小点等实际问题。考虑到2种预测方法各有其优点,为了进一步从原始数据序列中提取出更多信息,避免有效信息的浪费,提高预测精度,笔者将2种预测方法结合起来,形成SARIMA-SVR组合预测模型,对原始数据进行重新预测。首先,采用SARIMA模型对原始数据序列进行预测,然后形成预测残差,并将其作为SVR模型的样本集,用前4组的残差来预测后一个残差,形成训练集和测试集,再利用训练好的SVR模型对残差进行预测,预测结果包含了数据序列的非线性规律和信息,最后,将SARIMA模型的预测结果与SVR模型的预测结果进行加和,得到SARIMA-SVR组合预测模型的预测结果,如表1和图10所示。
  由表1可以看出,SVR模型对原始数据的规律捕捉和刻画能力最差,MAPE预测的平均绝对误差为13.10%,SARIMA模型对数据的规律刻画能力较强,通过历史数据发现,AQI值在不同月份的变化规律与SARIMA-SVR组合模型的预测结果较为相似,且在个别几个月中,SARIMA模型的预测误差要比SARIMA-SVR模型的预测误差小,但是SARIMA-SVR组合模型的预测稳定性更好,整体的平均绝对百分误差MAPE在3种预测模型中最小,为5.15%,因此,组合预测模型的整体预测精度要比单一预测模型的预测精度高。
  最后,利用SARIMA-SVR组合预测模型对太原市2019年8-12月进行预测,最终的预测结果如表2所示。
  由表2可以看出太原市在8-9月的月度平均空气质量指数为良好,适宜人们出行,10月份为轻度污染,而11-12月份的平均空气质量指数较高,相关部门的注意应提前做好环境保护工作,防止太原市的空气质量进一步恶化。
  5 结 语
  单一预测模型由于自身条件的限制,在对数据序列进行预测时,不能全面掌握数据信息而影响预测结果,因此,将2种单一预测模型进行组合,发挥其优势互补作用得到的组合预测模型的预测精度往往更高。
  1) 运用基于SARIMA模型和SVR模型相结合的SARIMA-SVR组合预测模型,对太原市空气质量预测的实例分析,验证了该算法的有效性。   2) 在数据比较平缓的变化中出现峰值时,SVR模型会产生比较大的误差,这说明SVR模型在捕捉数据规律方面存在着不足。
  SARIMA模型对空气质量指数的变化规律和季节波动影响的捕捉能力较强,将2种单一模型组合起来得到的SARIMA-SVR组合模型可以综合利用2种单一模型所提供的信息,有效地提高了预测精度。
  3) SARIMA-SVR组合预测模型减少了预测的系统误差。实证研究表明,基于SARIMA-SVR组合模型对预测太原市空气质量指数是有效的,组合预测模型的精度明显优于单一预测模型的精度。
  4) 空气质量指数不会受到污染物浓度、气象因素、车流量、工厂排放等多种因素的影响,在实证研究过程中,笔者没有考虑这些因素,仅是对AQI值进行了趋势预测,因此,在将来的研究中,应加大对影响因素的研究,利用智能优化算法优化参数,进一步提高预测精度。
  参考文献/References:
  [1]李婷婷,田瑞琦,汪漂.基于经验模态分解的空气质量指数组合预测方法及应用[J].价值工程,2019(16):134-138.
  LI Tingting,TIAN Ruiqi,WANG Piao.Air quality index combined prediction method based on EMD and its application[J].Value Engineering,2019(16):134-138.
  [2]敖希琴,张怡文,陈家丽,等.基于季节性时间序列模型的合肥地区空气质量分析及预测[J].合肥学院学报(综合版),2018,35(5):33-39.
  AO Xiqin,ZHANG Yiwen,CHEN Jiali,et al. Analysis and prediction of air quality in Hefei Area based on seasonal time series model[J].Journal of Hefei University(Comprehensive Edition),2018,35(5):33-39.
  [3]王坤,阮金梅,邓妮.基于SARIMA模型的曲靖市空气质量指数预测[J].曲靖師范学院学报,2018,37(3):25-29.
  WANG Kun,RUAN Jinmei,DENG Ni. Prediction of air quality index in Qujing based on SARIMA model[J].Journal of Qujing Normal University,2018,37(3):25-29.
  [4]VENTURA L M B,PINTO F D O,SOARES L M,et al. Forecast of daily PM2.5 concentrations applying artificial neural networks and Holt-Winters models[J].Air Quality, Atmosphere and Health,2019,12(3):317-325.
  [5]孟庆云,张若晴,袁朱红,等.基于ARIMA模型的天津市空气质量各项指标的预测分析[J].农业灾害研究,2018,8(5):44-45.
  MENG Qingyun,ZHANG Ruoqing,YUAN Zhuhong,et al. Prediction and analysis of air quality indicators in Tianjin based on ARIMA model[J].Journal of Agricultural Catastrophology,2018,8(5):44-45.
  [6]王涛,王凤兰,王悦婷.基于时间序列模型的PM2.5研究[J].智库时代,2018(35):192-193.
  [7]POHOATA A, LUNGU E.A complex analysis employing ARIMA model and statistical methods on air pollutants recorded in Ploiesti, Romania[J].Revista de Chimie-Bucharest-Original Eolition,2017,68(4):818-823.
  [8]WU Lifeng, GAO Xiaohui, XIAO Yanli,et al. Using grey Holt-Winters model to predict the air quality index for cities in China[J].Natural Hazards,2017,88(2):1003-1012.
  [9]高帅,胡红萍,李洋,等.基于MFO-SVM的空气质量指数预测[J].中北大学学报(自然科学版),2018,39(4):373-379.
  GAO Shuai, HU Hongping, LI Yang, et al. Prediction of air quality index based on MFO-SVM[J].Journal of North University of China(Natural Science Edition),2018,39(4):373-379.
  [10]汤银英,朱星龙,李龙.基于SARIMA模型的铁路月度客运量预测[J].交通运输工程与信息学报,2019,17(1):25-32.
  TANG Yinying, ZHU Xinglong, LI Long. Monthly railway passenger traffic volume forecasting based on SARIMA model[J].Journal of Transportation Engineering and Information,2019,17(1):25-32.
  [11]邓建球,赵建忠,陈洪,等.ABC算法优化SVR的磨损故障预测模型[J].兵工自动化,2018,37(10):60-64.
  DENG Jianqiu, ZHAO Jianzhong, CHEN Hong, et al. Wear faults prediction model based on SVR optimized by ABC[J].Ordnance Industry Automation,2018,37(10):60-64.
  [12]程虎彪,姜大立.基于SARIMA-SVM组合模型的战时军用物资需求预测[J].军事运筹与系统工程,2016,30(2):45-49.
其他文献
目的了解赤峰市餐饮业消毒状况,为今后餐饮业餐具消毒的监督指导工作提供依据。方法随机抽取赤峰市餐饮业消毒后的备用餐具880份样品进行检测,采用大肠菌群快速检验纸片法,按
摘要:为了研究媒体报道对传染病动力学性态的影响,通过建立疾病发生率受媒体报道影响的SIS数学模型,确定模型的基本再生数,证明平衡点的存在性以及地方病平衡点的唯一性,并证明无病平衡点的局部渐近稳定性和全局稳定性,以及地方病平衡点的局部渐近稳定性。引入时滞因子对模型进行深入研究,通过数值模拟验证了理论结果的正确性。研究结果表明:当参数满足一定条件时,在地方病平衡点会产生Hopf分支。具有媒体饱和发生率
目的探讨闭合复位PFNA内固定治疗老年股骨粗隆间骨折的疗效。方法自2009年1月~2013年10月,使用闭合复位PFNA内固定的方法治疗老年股骨粗隆间骨折56例,52例获得随访。平均年龄
能源对一个国家的经济发展起着重要作用。任何国家都要依赖能源来发展国民经济,改善人民生活。目前可作为能源资源的有石油、天然气、煤炭、铀、超重质油、焦油砂和油页岩等
目的探讨老年冠心病与胰岛素抵抗的相关性。方法通过测定无糖尿病病史的老年冠心病患者空腹胰岛素和空腹血糖计算出胰岛素抵抗指数。结果冠心病组与对照组比较,胰岛素抵抗指数
摘要:针对NFC协议进行模糊测试方案时产生大量不符合协议规范的无效测试用例而导致测试效率较低的问题,应用图论思想,提出了基于生成的策略与深度优先算法融合后的模糊测试方案。在基于生成的策略下构造测试用例的过程中,遍历由协议规范连接成的测试需求图,以深度优先算法搜索图中覆盖点较多的生成路径,精简测试用例的生成路径,保证生成的测试用例能够接近协议规范。实验分析表明,所提出的模糊测试方案能够有效地减少无效
自党的十一届三中全会以来,甘肃省乡镇企业得到了蓬勃发展,到1987年全省乡镇企业已达16万个,从业人员共约107万,总产值达亿元。乡镇企业的发展给全省国民经济带来了较大的经
甘肃省地面水例行监测数据管理系统是利用微机对全省各地、州、市监测站每年所监测的大量数据,进行输入、检索、比较、汇总、打印、存档等管理工作。 一、运行环境 1、本系统
大雨之后,在美国首都华盛顿东边的柴萨比湾畔,专家检查水质,发现其酸性浓度达到pH3.9,难怪鱼儿翻白了肚皮。 这海湾盛产软壳螃蟹及珍珠,由于酸雨为害,产量大减。美国环境保护