论文部分内容阅读
空气污染物给当前人们的生活环境带来了巨大的影响,污染物的治理和预测受到世界的广泛的关注。传统的污染物预测方法在解决长时间序列预测问题上遇到了阻碍,很难深度提取污染物和天气数据之间的时空关联特征,无法计算环境监测站点的位置信息、污染物和天气因素对每个时刻预测结果影响力大小问题。因此在城市污染物预测过程中,发现区域城市污染产生的影响力,到目前在污染物预测研究中还没去结合。当前,在历史的污染物和天气的大数据的支撑下,新型的机器学习技术为污染物预测所遇到的问题带来了新的解决思路和方法。根据相关研究中使用的污染物浓度预测方法的特点,空气污染物浓度预测可以从根本上分为两种主要的研究方法:确定性方法和统计学方法。确定性方法可以应用于有限的历史数据集。但是,需要气象原理和统计方法来模拟基于大气物理和化学反应的污染物的实时排放,扩散,转化和去除过程。基于确定性方法的模型结构是基于某些理论假设和先验知识预定义的,因此很难学习区域污染物的时空动态变化特性和有效的精确预测污染物浓度。统计学方法在污染物预测任务中,主要可细分为传统的机器学习方法和新型的深度学习方法。传统机器学习的特点是在小数据量的历史训练数据上,能快速收敛并且在污染物浓度预测任务中的预测精确度要高于确定性方法。近年来,基于深度学习的方法成为研究环境污染问题的重要技术手段。深度学习方法能在环境污染大数据中快速学习数据间的分布特征和规律,模型通过训练快速收敛。根据现有的研究表明,深度学习方法在污染物浓度预测中已经取得快速进展。但是现有的研究中,很少将区域多城市站点的环境污染数据的时空特征进行有效的关联,以及无法计算区域城市污染物扩散对目标城市污染物预测过程中的影响。但是目前的预测方法在污染物预测任务中所面临的问题有:(1)应当提取和学习气象数据与空气污染数据之间的复杂相关特征,以便进一步的预测和性能改进;(2)应准确提取历史数据之间的时间依赖性特征以进行预测。这就是说,在预测中应该忘记经过的长时间间隔中的冗余信息或特征,而在一定时间内要记住有用的信息或特征以改善预测;(3)应基于区域内邻近城市的大量气象数据和污染数据,并结合时间序列标签,提取区域内邻近城市之间的空间相关特征;(4)考虑区域城市污染物对目标研究任务的影响,综合时空维度上的影响力。针对现有研究工作中的不足,本文聚焦于联合区域多站点的环境污染数据,从时空两个维度对区域空气污染浓度及其扩散趋势预测展开研究。首先,为了充分学习历史数据的分布规律和时空关联特征,提升污染物浓度预测的精确度,提出了基于残差网络和卷积LSTM集成的RCL-Learning预测模型。一方面解决多城市污染物和气象数据的时空关联问题,另一方面就是做到精准预测,可作区域城市污染扩散研究的基础工作,用提取得到的时空关联特征作为后续研究的重要支撑。其次,在保持RCL-Learning模型预测精确度的基础上,我们进行区域污染物扩散趋势研究,提出了基于级联的Attention机制模型ABL-Learning,该模型一方面通过时序影响力计算输入时序特征对目标预测的贡献度,另一方面计算不同时刻区域多个城市的污染物对目标城市污染物预测产生的影响力大小。因此,在RCL-Learning和ABL-Learning模型的基础上,结合两个模型的优势,最终完成污染物浓度和区域城市污染物扩散预测研究工作。(1)以多个城市站点数据为输入,残差网络为底层,深层提取输入数据的空间特征,将输出结果作为高层的卷积LSTM的输入,提取数据的时空关联特征,并将最终隐藏状态输入到全联接层产生最终的预测结果。(2)针对区域时序污染物扩散趋势的问题,提出基于级联Attention的自编码网络,深度提取数据间的时空关联特征和联合考虑影响力计算问题,便于编码器编码数据的时空特征。在编码和解码部分实现Attention,从而根据Attention的结果发现区域城市污染物影响力和时序污染物扩散趋势。(3)仿真实验表明,基于神经网络集成的RCL-Learning预测模型的性能优于经典的模型,在空气污染物预测方面具有更高的应用价值;同时,分析了基于级联Attention机制的ABL-Learning预测模型可以适用于区域污染物扩散趋势预测问题。