论文部分内容阅读
PM2.5污染问题已经严重影响到了人们的生活出行以及生命健康,引发了科学界的广泛关注。如何利用大气环境监测点数据,深入有效地挖掘PM2.5浓度历史数据的时序特性,对未来时间段的PM2.5浓度值进行及时且精准的预警已经成为具有较强学术意义和应用价值的研究问题。然而,当前国控监测点的数据处理方法对于PM2.5浓度预测精度不足,并且对于时间维度上的PM2.5浓度值时序线性特性以及PM2.5浓度值与其他指标间非线性关系的双向深度学习效果不佳。为此,本文提出一种基于CEEMD(改进型经验模态分解方法)和Pearson相关度检验增强过滤的双隐含层深度LSTM(长短期记忆神经网络)混合模型的PM2.5浓度预测方法。本文的主要工作包括:(1)在数据预处理方面,本文利用Pearson相关性检验方法对历史数据进行空间横向的相关度筛选,筛选与下一时刻PM2.5浓度值相关度得分较高的指标数据作为有效数据,有效地提高了输入指标的分辨率。接下来,利用CEEMD经验模态分解方法对各指标数据在时间纵向进行多模态的分解,分解后得到不同模态下的多个分解波。处理后的分解波在保留原数据非线性的同时,其数据的时序变化相较更为平稳,有利于进一步挖掘时序特性。在上一步处理之后,传统的CEEMD模态分解方法会将高频波作为杂波直接去除,而本文则是依照Pearson相关度分析对各模态分解波进行二次过滤,筛选出与原序列相关度较强的分解波序列,作为最终的神经网络输入序列组。经由以上增强和过滤处理后,在时间纵向以及空间横向上都对模型数据进行了有效的正则化处理,可以有效增强神经网络的预测精度,优化网络收敛速度。(2)在神经网络设计方面,本文建立了以Re LU为激活函数的双隐含层的深度LSTM神经网络(DLSTM)。输入数据首先会被分为训练集与测试集两部分,训练集将会分批次输入网络中进行迭代训练,调整模型参数。经过本模型选取的Adam优化器算法重复训练后,当损失函数收敛,模型训练完成。再将测试集数据输入到训练好的网络中,即可对PM2.5浓度值进行时序预测。(3)在实验测试方面,本文按照有无结合CEEMD-Pearson数据增强过滤器以及深度DLSTM模型建立了三种待测试模型:简单的基于Pearson相关度筛选的单隐含层LSTM混合模型(P-LSTM)、经过CEEMD模态分解及Pearson增强过滤后的单隐含层LSTM模型(PCP-LSTM)和基于Pearson相关度分析和CEEMD模态分解增强过滤器的双隐含层深度LSTM神经网络混合模型(PCP-DLSTM),并进行了PM2.5浓度的预测对比实验。实验中分别比较了三种模型的性能评估指标,以及三种模型对于PM2.5浓度高低、波动性、不同时间尺度以及模型结构参数的灵敏性和适应度。实验数据表明,简单的P-LSTM混合模型的MAE和RMSE都普遍偏高,且NSE的值仅有0.549076,说明该模型的预测误差偏大,可靠度较低。此外,经过CEEMD模态分解过后的PCP-LSTM模型预测精度有了较大提升,预测精度达到了87%,且各项误差都有所降低。进一步,PCP-DLSTM模型提供了较优的预测结果,精度达到了90%以上,NSE的值也达到了0.889593。此外,在预测误差收敛速度的测试中,P-LSTM模型的预测误差在训练次数为7000次左右时才收敛,而PCP-LSTM模型的预测误差的收敛速度则略低于损失函数值的收敛速度,在训练800次左右后趋于平稳。相比损失值的收敛速度,PCP-DLSTM模型的预测误差收敛速度较快,在训练650次左右时就已经完全收敛。以上说明本文提出的CEEMD-Pearson增强过滤器以及深度DLSTM模型均在PM2.5浓度的时序预测中发挥了积极的效用,基于以上的混合模型PCP-DLSTM结构不仅具备高精度的PM2.5预测效果,还可以有效地提高模型训练的收敛速度,大大提升学习效率。并且经过进一步实验测试评估,本文提出的PCP-DLSTM对于PM2.5浓度的时序波动、浓度高低以及不同时间尺度下均有较强的敏感性和稳定性,具备良好的多时间跨度的时序预测能力,可以满足多种实际场景下的可靠性检验要求。本文所提出的基于CEEMD模态分解和Pearson相关度检验的双隐含层深度LSTM混合模型PCP-DLSTM在训练效果、收敛速度,预测精度以及预测时间跨度方面都有很好的性能表现,可以有效解决时序预测中存在的问题。