论文部分内容阅读
随着社会经济的快速发展,社会环境的污染日渐加重,大气污染物造成的雾霾天气越来越频繁,可见度逐渐降低给人们的日常生活带来了一定的困扰。因此,分析研究气溶胶PM10与能见度以及湿度之间的相关性是十分必要的。在过去的研究中主要基于数理统计学的方法定性地得出PM10与能见度以及湿度之间的相关性,然而随着气象领域数据的大量堆积,传统的基于数理统计学的线性回归方法不能更好地处理气象相关性问题。云计算的出现给气象数据方面的研究注入了新的活力,它可以在很短的时间内对大量数据进行计算,并且用时很短,同时部分机器学习算法也在气象领域得到了较好的应用。本文研究的主要内容是在云环境下使用机器学习算法模型对PM10与能见度以及湿度之间的相关性问题进行研究,具有一定的应用意义。并且当前还没有关于随机森林、逻辑回归算法模型用在气溶胶PM10与能见度以及湿度之间的相关性研究,也为未来的研究奠定了一个基础以及新的方向。本论文主要工作如下:(1)在云环境下建立相关性分析的实验架构平台,该框架主要包括计算引擎及存储、机器学习算法模型、预测评估以及结果展示。(2)基于线性回归、随机森林、逻辑回归算法的思想,分别设计云环境下面向PM10-能见度-湿度相关性研究的DMLR(Distributed Multiple Linear Regression)模型、DRF(Distributed Random Forests)模型和DLR(Distributed Logistic Regression)模型。(3)云环境下PM10-能见度-湿度之间相关性研究的具体实现。首先,使用云平台底层的计算引擎服务对PM10、能见度以及湿度的原始数据表进行导入,通过数据库操作语言对导入后的湿度指标表和能见度指标表进行拆分、连接,生成备用数据集;使用DMLR模型、DRF模型和DLR模型对每一个样本数据集进行处理,然后输入对应的样本测试集得到预测结果;最后,对预测结果进行评估分析,比较模型的可行性以及得到PM10、能见度以及湿度之间的相关性。通过实验结果可知,对于本文提供的数据集,在同一湿度范围下,能见度值越小,大气气溶胶PM10浓度偏大;在同一能见度范围下,湿度值越大,大气气溶胶PM10浓度偏低。并且湿度值在40%-90%之间,能见度值在8km-19km之间预测PM10值效果最好、相关系数也偏高。基于二分类思想,对于本文研究的数据集,DLR模型比DRF模型表现更优。在运行时间上的比较,DLR模型比DMLR模型更好。