论文部分内容阅读
摘要:本文基于降维和聚类的思想对新冠状病毒建立ARIMA模型进行研究和预测,采用聚类分析、因子分析,时间序列分析的方法。通过构造量化疫情严重程度的指标,对选取的13个国家进行因子分析,计算因子得分,利用因子得分进行聚类分析,将13个国家分为三类国家。其次根据官方发布的新冠疫情数据,采用时间序列分析方法来建立不同的ARIMA模型进行拟合巴西、印度和中国这三个具有代表性的国家的疫情走势及预测未来一个月的趋势,并通过模型和参数的显著性检验,最后发现未来一个月的预测数据和实际数据吻合较好。
关键词:COVID-19 聚类分析 因子分析 ARIMA 预测
一、引言
新型冠状病毒的出现,让全球的公共卫生体系遭受到一定的挑战。本文鉴于多次流行病学爆发的数据和趋势特征、走向和转折预警,同时结合病原学、流行病学方面和传播、途径、方式等的共同特点,希望能从统计学角度出发,构建对疫情趋势和转折的预测模型,分析影响其传播的关键因素,以数理统计学的理论知识为桥梁,实现对病毒的经验到理性的认知,以发展的眼光把数据连成一个清晰的蓝图,更好地在现实生活中做出最佳决策。
二、数据预处理
2.1样本选择
本文针对全球疫情发展状况,选择了美国、巴西、日本、德国、印度、意大利、加拿大、西班牙、韩国、英国、法国、俄罗斯、中国共13个比较有代表性的国家作为样本。样本数据来源于国家和省市卫健委。
由于各个国家疫情集中爆发的时间段不同,为了使疫情爆发情况具有横向比较性,本文统一将累计确诊人数达到100人及以上作为疫情集中爆发的标志,以此日期开始,分析该国之后的疫情发展趋势。
2.2数据处理
针对收集整理后的数据,本文对其进行了缺失值处理及异常值处理。
2.3构造量化疫情严重程度的指标
确诊、死亡、治愈和新增确诊人数是各国披露疫情情况使用的主要数据,但由于各个国家的人口基数、确诊人数基数都有较大差别,这些指标的横截面可比性不高,也不能直接涵盖疫情的爆发速度的信息。因此本文利用这三个指标,基于前人研究的基础构建了11个具有横向可比性的衍生指标:每百万人的累计确诊、日确诊增速、日死亡增速、日治愈增速、致死率、治愈率、当日新增确诊增速、当日新增死亡增速、当日新增治愈增速、每百万人现存感染、现存感染占累计确诊比,并利用这11个衍生指标对疫情建立相关模型,进行横向对比。
三、基于降维和分类思想分析各国疫情趋势
3.1方法及原理
从收集的13个国家的相关数据和资料来看,可以发现部分国家的疫情趋势、针对疫情采取的政策等有较多相似之处,因此对国家进行分类分析处理。要客观地整理国家类别,应采用因子分析和聚类分析的方法。
因子分析是一种基于降维思想的数据简化技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
聚类分析则是基于分类思想,将个体或对象分类,使得同一类中的对象之间的相似性与其他类的对象的相似性更强的一种方法。其目的是使类间对象的同质性最大化和类与类间对象的异质性最大化。
将因子分析法和聚类分析法相结合,即可将在疫情相关方面相似的国家分为同一类别,便于对全球疫情趋势做出分析并给出相应的建议。
3.2因子分析结果
在疫情严重程度衍生指标的基础上,引入了政策变量作为虚拟变量,对12个变量采用主成分法和正交旋转法进行因子分析。参照前人的研究,将政策分为“类SARS策略”和“类大流感策略”两种,其中,中国和韩国采取的策略为前者,其余11个国家采取的策略为后者。
结果中,四个因子的方差贡献率已达到89%,因此選用四个因子做后续的分析。从正交旋转后的因子载荷矩阵可以计算各个国家的四个因子的得分。
3.3聚类分析结果
将四个因子放入R中进行聚类分析,将13个国家归为三大类。聚类结果如图1所示,即Ⅰ类国家为美国、巴西;Ⅱ类国家为印度、德国、西班牙、意大利、法国、韩国、日本、英国、俄罗斯、加拿大;Ⅲ类国家为中国。
可以发现,Ⅲ类国家是针对疫情采取了严格的防疫政策并有较好成效的国家;Ⅱ类国家是针对疫情采取过一定的防疫措施,但没有做到长时间且严格的管理导致累计确诊人数增速大致呈先下降再加快的趋势的国家;Ⅰ类国家则是在疫情期间,一直采取放任政策且累计确诊人数爆发式增长的国家。
基于聚类分析的结果,本文将对三个类别分别建立数学模型分析其疫情趋势并预测未来走势,提出相应的防疫建议。
四、建立数学模型分析并预测疫情趋势
4.1模型的建立
目前,对疫情的预测大多是应用传播动力学模型和统计学模型如时间序列分析等,但传染病动力学模型需要对各种模型参数有较精确的了解,很难准确获取。而时间序列模型只需收集感染人数和病例数据历史序列,则可构建预测模型来进行短期预测,有较高的准确性。
ARIMA模型(自回归移动平均模型)主要运用于分析非平稳的、不具有季节性变化趋势的时间序列。具有短期预测性强且简单易操作的优点,同时被广泛运用于传染病的预测预警。在该模型中,新冠疫情数据可以看作时间序列观测数据,得到观察值后,分析的重点是通过有效的手段提取序列中所蕴含的确定性的信息。ARIMA(p,d,q)模型结构如下:
4.2模型的应用
我们从由上面聚类分析得到的三类国家中各挑选一个具有代表性的国家进行预测,其中Ⅰ类国家选择巴西,Ⅱ类国家选择印度,Ⅲ类选择中国。最终给出不同类型国家的ARIMA模型及其拟合和预测效果。 4.2.1 Ⅰ类国家
这类国家我们以巴西为例进行详细分析,根据收集到的巴西COVID-19疫情相关数据,我们使用2020年2月26日到11月13日的数据进行分析,得到ARIMA(2,2,5)模型的拟合优度较高。使用该模型预测在近一个月时间(11.14-12.13)内的疫情趋势,得巴西确诊人数升速度减慢,但仍呈上升趋势,随着时间不断推移,推断一个月后巴西最终感染确诊人数为6576503人左右。将预测的11月14日至12月14日的数值与官方给出的数据进行比较,发现该模型对巴西新冠肺炎疫情预测中,预测时间越远则预测精度越差,且实际值高于预测值。
4.2.2 Ⅱ类国家
该类国家我们以印度为例进行详细分析,根据搜集到的印度COVID-19疫情相关数据,使用2020年1月30日到11月13日的数据进行分析,建立得到ARIMA(0,2,3)模型进行预测,结果显示在近一个月时间(11.14-12.13)内,印度COVID-19疫情上升速度加快,随着时间不断推移,推断一个月后印度最终感染确诊人数为10198435人左右。将预测的数值与官方给出的数据进行比较得到图5。由图5可以发现ARIMA(0,2,3)对印度新冠肺炎疫情预测中,在前半段时间内的预测精度非常高,后面预测时间越远虽然预测精度变差但误差不大。
4.2.3 Ⅲ类国家
该类国家本文以中国为例进行详细分析,根据搜集到的中国COVID-19疫情相关数据,使用2020年1月30日到11月26日的数据进行分析,得到拟合优度较高的ARIMA(0,2,1)模型进行预测,结果显示2020年12月8日至2021年1月7日期间,中国累计确诊人数上升速度加快,随着时间不断推移,推断在1月7日中国最终感染确诊人数为10198435人左右。将预测数值与官方给出的数据进行比较发现,时间越长,预测精度变差,但误差保持较小水平,两者之间几乎保持平行距离。
4.3 模型讨论
在ARIMA模型的预测中,可以发现真实值几乎都大于预测值,这说明了此时间序列模型在实际应用中存在这一定的滞后性,这可能与在建模忽略了受到自然、社会及其他关联因素有关。但这仍然起到了一定的参考作用,如在其他一些不明原因的传染病疫情的防控和预测时提供一种参考方法。
五、结论与建议
以巴西为代表的Ⅰ类国家,采取了不合理的防疫政策,累计确诊人数持续增长,增长速度也一直保持在一个水平。以印度为代表的Ⅱ类国家,在疫情前期有采取过一定的防疫措施,而一段时间后政策变得宽松,没有继续采取严格的隔离措施,因此疫情前期确诊人数增速较缓慢,后期确诊人数不断攀升且增速上升。以中国为代表的Ⅲ类国家,从疫情初期一直采取着严格的防疫政策,累计确诊人数在上升到一定程度后保持稳定,疫情得到了较好的控制。
针对三个国家所建立的ARIMA模型都能较好地拟合真实的疫情趋势,将三个模型的短期预测结果和现实值进行对比,也能说明模型的拟合效果较好,如印度的预测中平均相对误差可以达到0.009。根据预测结果,三类国家的累计确诊人数在未来仍会不断增加,但Ⅲ类国家的增速会比Ⅰ类国家和Ⅱ类国家平缓。
5.2 建议
利用ARIMA模型拟合预测的结果,I类国家和Ⅱ类国家仍处于疫情发展期,Ⅲ类国家处于疫情平稳期,Ⅰ类国家和Ⅱ类国家应制定并实施严格的防疫策略,令居民做好个人防护,必要时采取强硬的隔离措施,政府部门积极开展舆情监控,普及疫情防控,做好疫情防控的工作,减少大型聚集活动,通过多种途径做好工作和特定人群个人防护的指导,减少人群中可能的接触或暴露,采取严格的出入境管制措施;Ⅲ类国家则不可掉以轻心,应继续保持,防止疫情的二次爆发。
现如今,新冠疫情仍在全球蔓延,利用本文中基于聚类分析思想建立ARIMA模型的方法,可以对短期内疫情的趋势做出预测,为疫情防控提供参考。
六、参考文獻
[1]高惠璇. 应用多元统计分析. 北京:北京大学出版社. 2005.1
[2]易丹辉、王燕. 应用时间序列分析(第5版).北京:中国人大学出版社. 2019.7
[3]温亮、黄清臻等. 运用ARIMA模型预测巴基斯坦新型冠状病毒肺炎疫情发展趋势的结果分析. 解放军预防医学杂志. 2020(08)-0096-05
【作者简介】
杨淘(2000.6-),女,汉族,广东佛山人,本科生学历,华南农业大学学生,研究方向:统计学。
关键词:COVID-19 聚类分析 因子分析 ARIMA 预测
一、引言
新型冠状病毒的出现,让全球的公共卫生体系遭受到一定的挑战。本文鉴于多次流行病学爆发的数据和趋势特征、走向和转折预警,同时结合病原学、流行病学方面和传播、途径、方式等的共同特点,希望能从统计学角度出发,构建对疫情趋势和转折的预测模型,分析影响其传播的关键因素,以数理统计学的理论知识为桥梁,实现对病毒的经验到理性的认知,以发展的眼光把数据连成一个清晰的蓝图,更好地在现实生活中做出最佳决策。
二、数据预处理
2.1样本选择
本文针对全球疫情发展状况,选择了美国、巴西、日本、德国、印度、意大利、加拿大、西班牙、韩国、英国、法国、俄罗斯、中国共13个比较有代表性的国家作为样本。样本数据来源于国家和省市卫健委。
由于各个国家疫情集中爆发的时间段不同,为了使疫情爆发情况具有横向比较性,本文统一将累计确诊人数达到100人及以上作为疫情集中爆发的标志,以此日期开始,分析该国之后的疫情发展趋势。
2.2数据处理
针对收集整理后的数据,本文对其进行了缺失值处理及异常值处理。
2.3构造量化疫情严重程度的指标
确诊、死亡、治愈和新增确诊人数是各国披露疫情情况使用的主要数据,但由于各个国家的人口基数、确诊人数基数都有较大差别,这些指标的横截面可比性不高,也不能直接涵盖疫情的爆发速度的信息。因此本文利用这三个指标,基于前人研究的基础构建了11个具有横向可比性的衍生指标:每百万人的累计确诊、日确诊增速、日死亡增速、日治愈增速、致死率、治愈率、当日新增确诊增速、当日新增死亡增速、当日新增治愈增速、每百万人现存感染、现存感染占累计确诊比,并利用这11个衍生指标对疫情建立相关模型,进行横向对比。
三、基于降维和分类思想分析各国疫情趋势
3.1方法及原理
从收集的13个国家的相关数据和资料来看,可以发现部分国家的疫情趋势、针对疫情采取的政策等有较多相似之处,因此对国家进行分类分析处理。要客观地整理国家类别,应采用因子分析和聚类分析的方法。
因子分析是一种基于降维思想的数据简化技术。它通过研究众多变量之间的内部依赖关系,探求观测数据中的基本结构,并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量,而假想变量是不可观测的潜在变量,称为因子。
聚类分析则是基于分类思想,将个体或对象分类,使得同一类中的对象之间的相似性与其他类的对象的相似性更强的一种方法。其目的是使类间对象的同质性最大化和类与类间对象的异质性最大化。
将因子分析法和聚类分析法相结合,即可将在疫情相关方面相似的国家分为同一类别,便于对全球疫情趋势做出分析并给出相应的建议。
3.2因子分析结果
在疫情严重程度衍生指标的基础上,引入了政策变量作为虚拟变量,对12个变量采用主成分法和正交旋转法进行因子分析。参照前人的研究,将政策分为“类SARS策略”和“类大流感策略”两种,其中,中国和韩国采取的策略为前者,其余11个国家采取的策略为后者。
结果中,四个因子的方差贡献率已达到89%,因此選用四个因子做后续的分析。从正交旋转后的因子载荷矩阵可以计算各个国家的四个因子的得分。
3.3聚类分析结果
将四个因子放入R中进行聚类分析,将13个国家归为三大类。聚类结果如图1所示,即Ⅰ类国家为美国、巴西;Ⅱ类国家为印度、德国、西班牙、意大利、法国、韩国、日本、英国、俄罗斯、加拿大;Ⅲ类国家为中国。
可以发现,Ⅲ类国家是针对疫情采取了严格的防疫政策并有较好成效的国家;Ⅱ类国家是针对疫情采取过一定的防疫措施,但没有做到长时间且严格的管理导致累计确诊人数增速大致呈先下降再加快的趋势的国家;Ⅰ类国家则是在疫情期间,一直采取放任政策且累计确诊人数爆发式增长的国家。
基于聚类分析的结果,本文将对三个类别分别建立数学模型分析其疫情趋势并预测未来走势,提出相应的防疫建议。
四、建立数学模型分析并预测疫情趋势
4.1模型的建立
目前,对疫情的预测大多是应用传播动力学模型和统计学模型如时间序列分析等,但传染病动力学模型需要对各种模型参数有较精确的了解,很难准确获取。而时间序列模型只需收集感染人数和病例数据历史序列,则可构建预测模型来进行短期预测,有较高的准确性。
ARIMA模型(自回归移动平均模型)主要运用于分析非平稳的、不具有季节性变化趋势的时间序列。具有短期预测性强且简单易操作的优点,同时被广泛运用于传染病的预测预警。在该模型中,新冠疫情数据可以看作时间序列观测数据,得到观察值后,分析的重点是通过有效的手段提取序列中所蕴含的确定性的信息。ARIMA(p,d,q)模型结构如下:
4.2模型的应用
我们从由上面聚类分析得到的三类国家中各挑选一个具有代表性的国家进行预测,其中Ⅰ类国家选择巴西,Ⅱ类国家选择印度,Ⅲ类选择中国。最终给出不同类型国家的ARIMA模型及其拟合和预测效果。 4.2.1 Ⅰ类国家
这类国家我们以巴西为例进行详细分析,根据收集到的巴西COVID-19疫情相关数据,我们使用2020年2月26日到11月13日的数据进行分析,得到ARIMA(2,2,5)模型的拟合优度较高。使用该模型预测在近一个月时间(11.14-12.13)内的疫情趋势,得巴西确诊人数升速度减慢,但仍呈上升趋势,随着时间不断推移,推断一个月后巴西最终感染确诊人数为6576503人左右。将预测的11月14日至12月14日的数值与官方给出的数据进行比较,发现该模型对巴西新冠肺炎疫情预测中,预测时间越远则预测精度越差,且实际值高于预测值。
4.2.2 Ⅱ类国家
该类国家我们以印度为例进行详细分析,根据搜集到的印度COVID-19疫情相关数据,使用2020年1月30日到11月13日的数据进行分析,建立得到ARIMA(0,2,3)模型进行预测,结果显示在近一个月时间(11.14-12.13)内,印度COVID-19疫情上升速度加快,随着时间不断推移,推断一个月后印度最终感染确诊人数为10198435人左右。将预测的数值与官方给出的数据进行比较得到图5。由图5可以发现ARIMA(0,2,3)对印度新冠肺炎疫情预测中,在前半段时间内的预测精度非常高,后面预测时间越远虽然预测精度变差但误差不大。
4.2.3 Ⅲ类国家
该类国家本文以中国为例进行详细分析,根据搜集到的中国COVID-19疫情相关数据,使用2020年1月30日到11月26日的数据进行分析,得到拟合优度较高的ARIMA(0,2,1)模型进行预测,结果显示2020年12月8日至2021年1月7日期间,中国累计确诊人数上升速度加快,随着时间不断推移,推断在1月7日中国最终感染确诊人数为10198435人左右。将预测数值与官方给出的数据进行比较发现,时间越长,预测精度变差,但误差保持较小水平,两者之间几乎保持平行距离。
4.3 模型讨论
在ARIMA模型的预测中,可以发现真实值几乎都大于预测值,这说明了此时间序列模型在实际应用中存在这一定的滞后性,这可能与在建模忽略了受到自然、社会及其他关联因素有关。但这仍然起到了一定的参考作用,如在其他一些不明原因的传染病疫情的防控和预测时提供一种参考方法。
五、结论与建议
以巴西为代表的Ⅰ类国家,采取了不合理的防疫政策,累计确诊人数持续增长,增长速度也一直保持在一个水平。以印度为代表的Ⅱ类国家,在疫情前期有采取过一定的防疫措施,而一段时间后政策变得宽松,没有继续采取严格的隔离措施,因此疫情前期确诊人数增速较缓慢,后期确诊人数不断攀升且增速上升。以中国为代表的Ⅲ类国家,从疫情初期一直采取着严格的防疫政策,累计确诊人数在上升到一定程度后保持稳定,疫情得到了较好的控制。
针对三个国家所建立的ARIMA模型都能较好地拟合真实的疫情趋势,将三个模型的短期预测结果和现实值进行对比,也能说明模型的拟合效果较好,如印度的预测中平均相对误差可以达到0.009。根据预测结果,三类国家的累计确诊人数在未来仍会不断增加,但Ⅲ类国家的增速会比Ⅰ类国家和Ⅱ类国家平缓。
5.2 建议
利用ARIMA模型拟合预测的结果,I类国家和Ⅱ类国家仍处于疫情发展期,Ⅲ类国家处于疫情平稳期,Ⅰ类国家和Ⅱ类国家应制定并实施严格的防疫策略,令居民做好个人防护,必要时采取强硬的隔离措施,政府部门积极开展舆情监控,普及疫情防控,做好疫情防控的工作,减少大型聚集活动,通过多种途径做好工作和特定人群个人防护的指导,减少人群中可能的接触或暴露,采取严格的出入境管制措施;Ⅲ类国家则不可掉以轻心,应继续保持,防止疫情的二次爆发。
现如今,新冠疫情仍在全球蔓延,利用本文中基于聚类分析思想建立ARIMA模型的方法,可以对短期内疫情的趋势做出预测,为疫情防控提供参考。
六、参考文獻
[1]高惠璇. 应用多元统计分析. 北京:北京大学出版社. 2005.1
[2]易丹辉、王燕. 应用时间序列分析(第5版).北京:中国人大学出版社. 2019.7
[3]温亮、黄清臻等. 运用ARIMA模型预测巴基斯坦新型冠状病毒肺炎疫情发展趋势的结果分析. 解放军预防医学杂志. 2020(08)-0096-05
【作者简介】
杨淘(2000.6-),女,汉族,广东佛山人,本科生学历,华南农业大学学生,研究方向:统计学。