论文部分内容阅读
随着社会经济的快速发展,工业化程度越来越高,城市人口数量迅速增加,空气污染日益严重。如何加强空气污染防治,及时有效的防止严重污染事件发生,是我们越来越关心的问题。为防止城市空气污染事件的发生,保证城市空气质量,我们必须对空气质量进行准确合理的评估。并对于突发事件及时提出有效的防治措施,尽可能的给居民保障一个健康的生活环境。科学有效的空气质量评价方法在确保城市空气质量方面发挥着非常重要的作用。然而,我国的空气质量评价方法目前使用较多的还是传统的空气质量评价方法,而传统的空气质量评价方法一般是从单个污染因子进行考虑,运用固定的公式计算得到的,并且掺和了很多主观因素。而随着大数据和人工智能方法的进步,面对海量的数据,传统方法已经很难满足数据处理效率的。机器学习是一种实现人工智能的方法,如何更好的利用大数据和人工智能来进行空气质量评价,已经成为目前学者专家们的研究热点。随机森林算法是目前一种较好的机器学习评价算法,具有预测准确率高、处理效率快,泛化能力强,不容易过拟合等优点使其在被很多学者专家们运用在很多领域,包括图像分类、故障诊断、交通流预测等领域。本文建立以城市空气质量为背景的空气质量评价模型,先是对评价因子进行选择,对评价标准和现有的空气质量评价方法进行大量的研究。其次,从随机森林算法的的原理和理论知识入手,介绍了算法构建过程并对其优化方法进行了研究,为之后的空气质量评价模型的建立做好铺垫。接下来,选取2014-2016年中我国113个重点环保城市的空气质量数据作为原始数据,通过数据的预处理与数据集划分后,建立基于随机森林的空气质量评价模型,同时通过对模型建立过程中的不平衡数据处理和参数调整两个方面进一步优化模型,并使用准确率和AUC值来评估模型的模型效果;最后,将随机森林算法与人工神经网络和支持向量机进行比较,分别计算它们的准确率和AUC值。实验结果表明随机森林算法的评价效果最好,可以准确有效的对城市的空气质量进行评价,同时通过袋外数据对空气质量评价因子的重要性进行排序,为今后的大气污染防治提供建议。