论文部分内容阅读
本文目的是了解重庆市主城区的空气质量变化规律和污染天气的分布情况,掌握污染因子浓度的变化趋势和周期性;以及定量分析机器学习中具有代表性的3种集成模型在PM2.5浓度预测中的准确性,从而建立相对较好的预测模型,以期能够做到有效的预测,为加强环境治理,政策制定,社会运作和个人防护做出参考和建议。针对历史数据的分析,本文使用描述性研究方法进行了规律的探索分析。包括使用频率,频数,箱线图,条形图等数据可视化方法;针对数据建模中的特征工程,从时间特征,滞后特征,时间滑窗特征3个方面出发进行特征信息的挖掘,使用特异值标记,类别变量数值化等方法修改特征数据,通过嵌入式等方式对特征进行了筛选。使用XGBoost、随机森林,Stacking三种机器学习集成模型,建立PM2.5的短期预测模型。以MAE、MAPE、R2三个回归问题的评价指标以及实际应用角度出发探讨3种模型对PM2.5时序数据建模的优劣。本文通过收集重庆市主城区所有气象监测站的空气质量数据和地面气象资料历史数据进行上述分析和建模过程,得出的主要结果如下:(1)主城区的二级标准达标率逐步接近85%的界线,近6年来各年空气质量为优的天数不断增加,且未出现过严重污染天气,重度污染天气有改善明显,长时间极端天气过程减少,空气质量整体向好变化。污染严重的月份为12月、1月、2月和8月。全年首要污染因子为PM2.5,8月的首要污染因子主要是臭氧(O3)。(2)2014年至2019年污染因子浓度的年际变化中,颗粒物浓度(PM2.5和PM10)逐年大幅度下降,SO2浓度下降幅度较小。臭氧(O3)浓度逐年上升。CO和SO2年平均浓度保持在较低水平,且远远优于国家二级标准限值。在月度浓度变化中,PM2.5和PM10浓度变化趋势与各月份污染趋势类似;臭氧(O3)浓度在8月达到最高,且是8月的首要污染因子,从而可以推断主城区主要夏季主要污染来自太阳辐射,而冬季污染严重的原因是PM2.5和PM10浓度的上升。从每日浓度变化上可以得出,所有污染物浓度在早晨6-8点浓度均处于全天较低的水平。(3)在污染因子相关性分析方面,AQI与PM2.5和PM10的相关分别为0.93,0.94,说明监测指标受颗粒物浓度影响较大。PM2.5与PM10和CO相关性都较高,与其他污染因子间相关程度较弱。与地面气象因素的相关性分析得出臭氧与气温等与太阳照射相关指标相关程度都较高。颗粒物与降水量成负相关,说明降水对PM2.5具有清洗作用。与相对湿度的相关性较弱。(4)在不同长度的滞后特征中,随机森林以滞后3天信息作为特征时达到最优,此时=0.75,平均百分比误差=0.23,平均绝对误差=7.97。XGBoost模型在输入滞后2天信息时最优,其=7.47,=0.21,=0.78。而使用两个XGBoost堆叠的Stacking模型在输入1天和2天时性能相近。(5)在三种模型的性能比较上,随机森林弱于XGBoost和Stacking模型。XGBoost和Stacking模型性能相近,Stacking在输入滞后1天的特征信息时提升较大优于其他模型。在输入2天时XGBoost和Stacking相当。综合比较输入2天历史信息的Stacking>XGBoost>随机森林。通过上述结果的总结整理,可得出以下结论:重庆市主城区空气质量总体上表现较好,在持续的向好发展,臭氧在8月会带来较大的空气污染,但由于其来源特殊,防治困难。CO和SO2产生污染的可能性较小,未来极端天气过程的发生的概率较小,因此在污染防治上应该重点关注冬季颗粒物污染。XGBoost模型比随机森林模型在预测上准确行更好,而Stacking模型能够对XGBoost模型的准确性进一步提升。