我国流感流行特征、影响因素及模型预测研究

来源 :广州中医药大学 | 被引量 : 1次 | 上传用户:dexter001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究目的基于我国2005-2017年共13年流感样病例发病数据、同期气象数据以及2015-2017年空气质量数据,研究我国流感流行特征、南北方流行差异,探讨影响我国流感流行的影响因素,建立全国、南北方、省级、城市级流感预测模型,进行预测,并评价预测效果及预测性能。研究方法一、我国流感流行特征研究,主要采用轮廓分析法。通过R语言和Python编程实现数据可视化及数据统计特征提取,来研究数据的分布特点,探讨流感流行特征、南北方流行差异。二、流感流行影响因素研究,主要采用Pearson相关系数矩阵分析法和梯度提升决策树(GBDT)特征重要性分析法。第一步对比作图直接观察数据间关系;第二步对流感数据、气象数据、空气质量数据进行相关性分析,提取重要影响因素或排除线性相关因子;第三步运用GBDT对特征重要性进行排序,获得权重较大的共同影响因素,作为下一步模型预测的输入变量之一。三、流感模型预测研究,运用时间序列(TS)和神经网络(ANN/NN)研究方法,采用自回归移动平均混合模型(ARIMA)和长短期记忆模型(LSTM),建立全国、南北方、省级和城市级流感预测模型。在全国、南北方及省级层面,对比基于流感历史数据的ARIMA模型和LSTM模型的预测效果及预测性能;在城市层面,对比单因素LSTM和4种多因素LSTM模型的预测效果及预测性能,单因素指仅基于流感历史数据,多因素指在流感历史数据基础之上叠加影响因素。同时,通过叠加与不叠加影响因素以及叠加不同影响因素的LSTM模型间预测性能的两两对比,反证影响因素筛选的有效性。研究结果一、流感在我国整体上呈现冬季高峰、春季次高峰、夏季和秋季低谷的流行特征。北方地区,总体上表现为冬季单高峰、夏季低谷。南方地区,表现为冬季高峰、春季次高峰、夏季小高峰和秋季低谷。二、通过对比作图直接观察法、Pearson相关系数矩阵分析、GBDT特征重要性分析,结合相关研究结果,筛选出4组影响因素:①平均气温、平均气压和平均相对湿度,②平均气温,③平均绝对湿度,④平均气温和平均绝对湿度,用于构建叠加影响因素的多因素预测模型。三、在全国、南北方及31省级层面,分别采用时间序列ARIMA模型和神经网络LSTM模型,基于流感历史发病数据进行预测,在测试集上RMSE均值,LSTM为435.53,大幅小于ARIMA的662.92,配对Wilcoxon检验P=4.176e-07(P<0.05),差异有统计学意义。在32城市层面,单因素LSTM模型、多因素LSTM-1模型(叠加前述影响因素①)、多因素LSTM-2模型(叠加影响因素②)、多因素LSTM-3模型(叠加影响因素③)、多因素LSTM-4模型(叠加影响因素④),在测试集上RMSE均值分别为81.81、73.46、84.42、74.90、75.54,按模型均值从小到大排序依次为LSTM-1、LSTM-3、LSTM-4、LSTM、LSTM-2。经多个相关样本比较的 Friedman 检验,P=0.03104(P<0.05),5种模型预测性能不全相同。经两两配对Wilcoxon检验,LSTM-1和LSTM-2(P= 0.0205,P<0.05)以及 LSTM-3和LSTM-4(P=0.0057,P<0.05)预测性能差异有统计学意义。省级层面2种模型,城市层面5种模型,共7种模型南北方预测性能RMSE均值对比,北方全部小于南方,南北方两独立样本Wilcoxon检验,差异全部无统计学意义。研究结论一、低温可能有利于流感发病和流行,温暖干燥或炎热干燥则可能抑制流感的发病和流行。在温暖和炎热的天气条件下,较高的湿度可能是流感流行的有利条件。简单地用南北方或用纬度来进行流行区域的划分可能未必恰当,流感流行受具体的气候环境或气象因素影响。二、流感发病数与气象因素、空气质量因素几乎没有线性相关关系。流感流行的相关影响因素方面,气温不是唯一或决定性影响因素,绝对湿度可能才是唯一或决定性影响因素。三、在流感预测模型方面,神经网络LSTM模型表现优异,适合用于短期和中长期预测。在叠加影响因素方面,叠加适当的影响因素,可以提高模型的预测性能,叠加不当的因素,可能降低模型的预测性能。在预测性能的评价方面,RMSE受预测效果的好坏以及流感发病数大小的影响,单纯以RMSE数值的大小来评价预测效果的好坏容易出现偏差。在预测效果的影响因素方面,流感预测效果主要受流感发病数据本身以及模型选择的影响,而不是南北方属性的不同、气候带的差异,也不是流感流行特征的复杂程度。在发病数据如何影响预测效果方面,发病数据的峰值极端与否严重影响模型的预测效果:训练集上出现峰值是极端值,容易导致模型预测的失败,甚至模型拟合的失败;测试集上出现峰值是极端值,在极端值处容易预测失败。在模型预测的适用范围方面,根据模型预测的原理以及本研究全国31省份32城市跨度13年的研究实践,预测模型难以很好地处理极端值问题,因此可能只适用于流感季节性流行的预测,不适用于流感大流行的预测。
其他文献
硫化氢(H2S)和过氧化氢(H2O2)是两种重要的信号分子,参与调控植物的多种生理过程,且能有效缓解非生物胁迫造成的伤害,然而H2S与H2O2互作对植物光合作用调控机理的研究较少,氧化还
随着电子商务的迅猛发展,网络购物已成为人们生活中重要的消费模式,越来越多的商家选择通过第三方电子商务平台开设网络店铺开展产品销售。为了充分利用平台资源使效益最大化
研究目的:腺样囊性癌具有侵袭性强的特点,单纯手术治疗后复发率较高。近年来,放射性125I粒子组织间植入治疗涎腺恶性肿瘤取得了良好的临床疗效,本研究从细胞学层面探讨放射性
随着网络技术的迅猛发展和移动智能终端的全面普及,短视频凭借短小精悍、传播力强的特性,满足了受众“碎片化”获取信息的需要。在新闻传播领域,借助短视频发展的风口,和短视频在新闻资讯内容表达上的天然优势,新闻业界涌现出大量的生产主体和生产内容。新闻资讯类短视频的内容生产颠覆了传统新闻视频的制作方式,PGC专业内容生产模式和PUGC专业用户内容生产模式是新闻资讯类短视频主要的生产模式,为受众提供多元化的新
在我国,执行难、执行乱问题长期存在,成为制约人民法院工作发展的瓶颈问题。2012年《民事诉讼法》修改将执行活动纳入检察监督范围,完善了民事诉讼法律监督内容,检察机关正式
会议
在扶贫事业进入攻坚期阶段,大量的社会资本参与到扶贫中,快手把短视频作为乡村扶贫的信息普惠工具,推动乡村社交电商发展,赋能乡村农人,实现“造血式扶贫”。英国当代文化研究之父斯图亚特·霍尔在《电视话语的编码与解码》一书中提出了编码解码理论,他认为传受双方是平等的,意义不是被传递的,而是在传播过程中产生的,从一个信息的编成、流通到信息的接收与了解,各个环节都存在多元的可能性。本研究以霍尔编码解码为理论支
随着可再生能源(Renewable Energy Sources-RES)渗透率的提高,同步发电机在电网中的份额减少,惯量作用减弱和热备用容量降低,导致电网的安全稳定性下降。采用基于虚拟同步发
近年来,短视频发展势头迅猛。作为继文字、图片、音频、长视频后更加契合移动端传播的新型信息载体,短视频“短平快”的传播特点,满足了受众碎片化和移动化的观看需求,也成为
目的:肝移植是治疗终末期肝病的最佳选择,而器官短缺促使心脏死亡(donation after circulatory death,DCD)供肝大量应用于临床。目前最常用也是最方便经济的供肝体外保存方式
全球的超重与肥胖比例逐年升高,已经证实肥胖与心血管疾病有明显的关系,但是更严峻的是,目前大量的研究表明肥胖与癌症之间有着明显的联系,肥胖病人癌症发病率及预后不良的比
会议