论文部分内容阅读
研究目的基于我国2005-2017年共13年流感样病例发病数据、同期气象数据以及2015-2017年空气质量数据,研究我国流感流行特征、南北方流行差异,探讨影响我国流感流行的影响因素,建立全国、南北方、省级、城市级流感预测模型,进行预测,并评价预测效果及预测性能。研究方法一、我国流感流行特征研究,主要采用轮廓分析法。通过R语言和Python编程实现数据可视化及数据统计特征提取,来研究数据的分布特点,探讨流感流行特征、南北方流行差异。二、流感流行影响因素研究,主要采用Pearson相关系数矩阵分析法和梯度提升决策树(GBDT)特征重要性分析法。第一步对比作图直接观察数据间关系;第二步对流感数据、气象数据、空气质量数据进行相关性分析,提取重要影响因素或排除线性相关因子;第三步运用GBDT对特征重要性进行排序,获得权重较大的共同影响因素,作为下一步模型预测的输入变量之一。三、流感模型预测研究,运用时间序列(TS)和神经网络(ANN/NN)研究方法,采用自回归移动平均混合模型(ARIMA)和长短期记忆模型(LSTM),建立全国、南北方、省级和城市级流感预测模型。在全国、南北方及省级层面,对比基于流感历史数据的ARIMA模型和LSTM模型的预测效果及预测性能;在城市层面,对比单因素LSTM和4种多因素LSTM模型的预测效果及预测性能,单因素指仅基于流感历史数据,多因素指在流感历史数据基础之上叠加影响因素。同时,通过叠加与不叠加影响因素以及叠加不同影响因素的LSTM模型间预测性能的两两对比,反证影响因素筛选的有效性。研究结果一、流感在我国整体上呈现冬季高峰、春季次高峰、夏季和秋季低谷的流行特征。北方地区,总体上表现为冬季单高峰、夏季低谷。南方地区,表现为冬季高峰、春季次高峰、夏季小高峰和秋季低谷。二、通过对比作图直接观察法、Pearson相关系数矩阵分析、GBDT特征重要性分析,结合相关研究结果,筛选出4组影响因素:①平均气温、平均气压和平均相对湿度,②平均气温,③平均绝对湿度,④平均气温和平均绝对湿度,用于构建叠加影响因素的多因素预测模型。三、在全国、南北方及31省级层面,分别采用时间序列ARIMA模型和神经网络LSTM模型,基于流感历史发病数据进行预测,在测试集上RMSE均值,LSTM为435.53,大幅小于ARIMA的662.92,配对Wilcoxon检验P=4.176e-07(P<0.05),差异有统计学意义。在32城市层面,单因素LSTM模型、多因素LSTM-1模型(叠加前述影响因素①)、多因素LSTM-2模型(叠加影响因素②)、多因素LSTM-3模型(叠加影响因素③)、多因素LSTM-4模型(叠加影响因素④),在测试集上RMSE均值分别为81.81、73.46、84.42、74.90、75.54,按模型均值从小到大排序依次为LSTM-1、LSTM-3、LSTM-4、LSTM、LSTM-2。经多个相关样本比较的 Friedman 检验,P=0.03104(P<0.05),5种模型预测性能不全相同。经两两配对Wilcoxon检验,LSTM-1和LSTM-2(P= 0.0205,P<0.05)以及 LSTM-3和LSTM-4(P=0.0057,P<0.05)预测性能差异有统计学意义。省级层面2种模型,城市层面5种模型,共7种模型南北方预测性能RMSE均值对比,北方全部小于南方,南北方两独立样本Wilcoxon检验,差异全部无统计学意义。研究结论一、低温可能有利于流感发病和流行,温暖干燥或炎热干燥则可能抑制流感的发病和流行。在温暖和炎热的天气条件下,较高的湿度可能是流感流行的有利条件。简单地用南北方或用纬度来进行流行区域的划分可能未必恰当,流感流行受具体的气候环境或气象因素影响。二、流感发病数与气象因素、空气质量因素几乎没有线性相关关系。流感流行的相关影响因素方面,气温不是唯一或决定性影响因素,绝对湿度可能才是唯一或决定性影响因素。三、在流感预测模型方面,神经网络LSTM模型表现优异,适合用于短期和中长期预测。在叠加影响因素方面,叠加适当的影响因素,可以提高模型的预测性能,叠加不当的因素,可能降低模型的预测性能。在预测性能的评价方面,RMSE受预测效果的好坏以及流感发病数大小的影响,单纯以RMSE数值的大小来评价预测效果的好坏容易出现偏差。在预测效果的影响因素方面,流感预测效果主要受流感发病数据本身以及模型选择的影响,而不是南北方属性的不同、气候带的差异,也不是流感流行特征的复杂程度。在发病数据如何影响预测效果方面,发病数据的峰值极端与否严重影响模型的预测效果:训练集上出现峰值是极端值,容易导致模型预测的失败,甚至模型拟合的失败;测试集上出现峰值是极端值,在极端值处容易预测失败。在模型预测的适用范围方面,根据模型预测的原理以及本研究全国31省份32城市跨度13年的研究实践,预测模型难以很好地处理极端值问题,因此可能只适用于流感季节性流行的预测,不适用于流感大流行的预测。