论文部分内容阅读
空气质量的优劣不仅影响着人们的生产生活,还在一定程度上影响着一个城市的整体竞争力,因此空气质量的优劣越来越受到人们的关注。本文以合肥市空气质量相关的每日均值数据为基础,对空气质量指数的现状以及空气质量指数数值的预测效果进行研究。首先,本文通过对空气质量的相关数据进行探索性数据分析,直观地描述了合肥市的空气质量变化趋势、污染物和气象因素的总体概况与变化规律等,并使用皮尔逊相关系数创建了相关系数矩阵表与热力图。通过比较各个特征与AQI的相关程度,初步探索影响空气质量指数的主要特征以及内在联系,发现AQI主要受PM2.5和PM10的影响,并且多个特征之间存在共线性。由分析可知,合肥市的空气质量的改善效果显著,当地人们的生活环境质量在不断地提升,但大气污染的季节性差异依然很明显,应当在冬季和春季采取相应的改善措施,控制PM2.5与CO等大气污染物的排放,避免空气质量的进一步恶化。其次,本文使用Lasso回归的方法对预处理之后的数据进行特征筛选,并选取性能评测指标为接下来预测模型的建立与改进设定对比的标准。然后分别建立XGBoost、Light GBM、Cat Boost三种预测模型进行初步预测,通过调参提高模型的性能表现,最后对最终模型的效果进行对比评估,发现三种模型各有利弊。总体来看,Cat Boost预测模型的效果最佳。最后,由于三个模型的模型精度与效率各有不足之处,故采用Stacking进行模型融合加以改进。以本文建立的三种模型做为模型融合中第一层的基础模型,将其预测的输出结果作为第二层模型的输入变量,并选择线性回归作为第二层的元模型进行Stacking。预测出的最终结果,不仅拟合效果变佳,达到了99.45%,预测的精度也得到了进一步的提升,有效避免了过拟合现象。根据分析结果可以得出:利用该模型能够有效地预测空气质量指数的日均值,对有关的部门制定与发布大气污染预警提供科学有效的理论指导。