论文部分内容阅读
随着我国经济的快速发展,人类的物质文化生活水平不断提升,但是环境与发展的不协调也日益突显出来。环境在人类社会发展的过程中受到了巨大的破坏,主要表现在人类、动植物赖以生存的空气、水、土壤等。近些年来,空气质量污染问题频频出现,雾霾等大气污染不仅对人类的正常生产、生活、工作及学习等方面带来负面影响,同时也无形之间对人们的身心健康造成了危害,更是阻碍了社会的可持续发展。PM2.5作为雾霾形成的元凶,对其进行科学有效地预测可以让人们提前做好防护工作,尽最大限度的减少对人体的危害。太原市作为我国典型的能源化工城市,空气污染问题已持续很久,因此研究太原市PM2.5浓度预测已成为具有十分现实意义的课题。本文主要从以下几个方面对太原市PM2.5浓度预测进行了研究:首先,本文以太原市2013年1月1日至2017年12月31日的空气质量监测数据和同时期的地面气象数据为基础,对其进行数据挖掘。对PM2.5浓度从月、周、日等多个时间尺度的变化规律进行分析;也将PM2.5浓度与其他空气污染物(如PM10、SO2、NO2、CO、O3)之间的相关性进行分析;此外,还分析了大气中气象条件(如温度、湿度、风向、风速等)对PM2.5浓度扩散的影响;最后,还对预测站点与周边站点PM2.5浓度的时空关联性进行了分析研究。其次,在数据预处理环节,利用K-Means算法将气象数据聚类,对不同的聚类簇建立不同的预测模型;使用随机森林算法利用污染物之间的相关性建立填补PM2.5缺失值的模型,对PM2.5缺失值进行了填补;最后从数据层面出发,使用欠采样算法减少或消除类不平衡对预测模型带来的负面影响。最后,利用随机森林算法并基于Spark平台建立PM2.5浓度值预测模型和PM2.5浓度等级预测模型。以时间因子、气象条件、站点关联性为特征进行模型构建,并对所建立的模型预测结果进行了评价,结果表明,本文所提出的预测方法对太原市PM2.5浓度有较高的预测精度。