基于聚类分析和ARIMA模型对不同类型国家的疫情趋势预测

来源 :科学与生活 | 被引量 : 0次 | 上传用户：guizhong1121

【摘要】

：

【作者】

：

杨淘肖乐瑶张陆豪邱则满左欣延吴少晖

【出处】

：

科学与生活

【发表日期】

：

2021年19期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：本文基于降维和聚类的思想对新冠状病毒建立ARIMA模型进行研究和预测，采用聚类分析、因子分析，时间序列分析的方法。通过构造量化疫情严重程度的指标，对选取的13个国家进行因子分析，计算因子得分，利用因子得分进行聚类分析，将13个国家分为三类国家。其次根据官方发布的新冠疫情数据，采用时间序列分析方法来建立不同的ARIMA模型进行拟合巴西、印度和中国这三个具有代表性的国家的疫情走势及预测未来一个月的趋势，并通过模型和参数的显著性检验，最后发现未来一个月的预测数据和实际数据吻合较好。
　　关键词：COVID-19 聚类分析因子分析 ARIMA 预测
　　一、引言
　　新型冠状病毒的出现，让全球的公共卫生体系遭受到一定的挑战。本文鉴于多次流行病学爆发的数据和趋势特征、走向和转折预警，同时结合病原学、流行病学方面和传播、途径、方式等的共同特点，希望能从统计学角度出发，构建对疫情趋势和转折的预测模型，分析影响其传播的关键因素，以数理统计学的理论知识为桥梁，实现对病毒的经验到理性的认知，以发展的眼光把数据连成一个清晰的蓝图，更好地在现实生活中做出最佳决策。
　　二、数据预处理
　　2.1样本选择
　　本文针对全球疫情发展状况，选择了美国、巴西、日本、德国、印度、意大利、加拿大、西班牙、韩国、英国、法国、俄罗斯、中国共13个比较有代表性的国家作为样本。样本数据来源于国家和省市卫健委。
　　由于各个国家疫情集中爆发的时间段不同，为了使疫情爆发情况具有横向比较性，本文统一将累计确诊人数达到100人及以上作为疫情集中爆发的标志，以此日期开始，分析该国之后的疫情发展趋势。
　　2.2数据处理
　　针对收集整理后的数据，本文对其进行了缺失值处理及异常值处理。
　　2.3构造量化疫情严重程度的指标
　　确诊、死亡、治愈和新增确诊人数是各国披露疫情情况使用的主要数据，但由于各个国家的人口基数、确诊人数基数都有较大差别，这些指标的横截面可比性不高，也不能直接涵盖疫情的爆发速度的信息。因此本文利用这三个指标，基于前人研究的基础构建了11个具有横向可比性的衍生指标：每百万人的累计确诊、日确诊增速、日死亡增速、日治愈增速、致死率、治愈率、当日新增确诊增速、当日新增死亡增速、当日新增治愈增速、每百万人现存感染、现存感染占累计确诊比，并利用这11个衍生指标对疫情建立相关模型，进行横向对比。
　　三、基于降维和分类思想分析各国疫情趋势
　　3.1方法及原理
　　从收集的13个国家的相关数据和资料来看，可以发现部分国家的疫情趋势、针对疫情采取的政策等有较多相似之处，因此对国家进行分类分析处理。要客观地整理国家类别，应采用因子分析和聚类分析的方法。
　　因子分析是一种基于降维思想的数据简化技术。它通过研究众多变量之间的内部依赖关系，探求观测数据中的基本结构，并用少数几个假想变量来表示其基本的数据结构。这几个假想变量能够反映原来众多变量的主要信息。原始的变量是可观测的显在变量，而假想变量是不可观测的潜在变量，称为因子。
　　聚类分析则是基于分类思想，将个体或对象分类，使得同一类中的对象之间的相似性与其他类的对象的相似性更强的一种方法。其目的是使类间对象的同质性最大化和类与类间对象的异质性最大化。
　　将因子分析法和聚类分析法相结合，即可将在疫情相关方面相似的国家分为同一类别，便于对全球疫情趋势做出分析并给出相应的建议。
　　3.2因子分析结果
　　在疫情严重程度衍生指标的基础上，引入了政策变量作为虚拟变量，对12个变量采用主成分法和正交旋转法进行因子分析。参照前人的研究，将政策分为“类SARS策略”和“类大流感策略”两种，其中，中国和韩国采取的策略为前者，其余11个国家采取的策略为后者。
　　结果中，四个因子的方差贡献率已达到89%，因此選用四个因子做后续的分析。从正交旋转后的因子载荷矩阵可以计算各个国家的四个因子的得分。
　　3.3聚类分析结果
　　将四个因子放入R中进行聚类分析，将13个国家归为三大类。聚类结果如图1所示，即Ⅰ类国家为美国、巴西;Ⅱ类国家为印度、德国、西班牙、意大利、法国、韩国、日本、英国、俄罗斯、加拿大;Ⅲ类国家为中国。
　　可以发现，Ⅲ类国家是针对疫情采取了严格的防疫政策并有较好成效的国家;Ⅱ类国家是针对疫情采取过一定的防疫措施，但没有做到长时间且严格的管理导致累计确诊人数增速大致呈先下降再加快的趋势的国家;Ⅰ类国家则是在疫情期间，一直采取放任政策且累计确诊人数爆发式增长的国家。
　　基于聚类分析的结果，本文将对三个类别分别建立数学模型分析其疫情趋势并预测未来走势，提出相应的防疫建议。
　　四、建立数学模型分析并预测疫情趋势
　　4.1模型的建立
　　目前，对疫情的预测大多是应用传播动力学模型和统计学模型如时间序列分析等，但传染病动力学模型需要对各种模型参数有较精确的了解，很难准确获取。而时间序列模型只需收集感染人数和病例数据历史序列，则可构建预测模型来进行短期预测，有较高的准确性。
　　ARIMA模型（自回归移动平均模型）主要运用于分析非平稳的、不具有季节性变化趋势的时间序列。具有短期预测性强且简单易操作的优点，同时被广泛运用于传染病的预测预警。在该模型中，新冠疫情数据可以看作时间序列观测数据，得到观察值后，分析的重点是通过有效的手段提取序列中所蕴含的确定性的信息。ARIMA（p，d，q）模型结构如下：
　　4.2模型的应用
　　我们从由上面聚类分析得到的三类国家中各挑选一个具有代表性的国家进行预测，其中Ⅰ类国家选择巴西，Ⅱ类国家选择印度，Ⅲ类选择中国。最终给出不同类型国家的ARIMA模型及其拟合和预测效果。　　4.2.1 Ⅰ类国家
　　这类国家我们以巴西为例进行详细分析，根据收集到的巴西COVID-19疫情相关数据，我们使用2020年2月26日到11月13日的数据进行分析，得到ARIMA（2，2，5）模型的拟合优度较高。使用该模型预测在近一个月时间（11.14-12.13）内的疫情趋势，得巴西确诊人数升速度减慢，但仍呈上升趋势，随着时间不断推移，推断一个月后巴西最终感染确诊人数为6576503人左右。将预测的11月14日至12月14日的数值与官方给出的数据进行比较，发现该模型对巴西新冠肺炎疫情预测中，预测时间越远则预测精度越差，且实际值高于预测值。
　　4.2.2 Ⅱ类国家
　　该类国家我们以印度为例进行详细分析，根据搜集到的印度COVID-19疫情相关数据，使用2020年1月30日到11月13日的数据进行分析，建立得到ARIMA（0，2，3）模型进行预测，结果显示在近一个月时间（11.14-12.13）内，印度COVID-19疫情上升速度加快，随着时间不断推移，推断一个月后印度最终感染确诊人数为10198435人左右。将预测的数值与官方给出的数据进行比较得到图5。由图5可以发现ARIMA（0，2，3）对印度新冠肺炎疫情预测中，在前半段时间内的预测精度非常高，后面预测时间越远虽然预测精度变差但误差不大。
　　4.2.3 Ⅲ类国家
　　该类国家本文以中国为例进行详细分析，根据搜集到的中国COVID-19疫情相关数据，使用2020年1月30日到11月26日的数据进行分析，得到拟合优度较高的ARIMA（0，2，1）模型进行预测，结果显示2020年12月8日至2021年1月7日期间，中国累计确诊人数上升速度加快，随着时间不断推移，推断在1月7日中国最终感染确诊人数为10198435人左右。将预测数值与官方给出的数据进行比较发现，时间越长，预测精度变差，但误差保持较小水平，两者之间几乎保持平行距离。
　　4.3 模型讨论
　　在ARIMA模型的预测中，可以发现真实值几乎都大于预测值，这说明了此时间序列模型在实际应用中存在这一定的滞后性，这可能与在建模忽略了受到自然、社会及其他关联因素有关。但这仍然起到了一定的参考作用，如在其他一些不明原因的传染病疫情的防控和预测时提供一种参考方法。
　　五、结论与建议
　　以巴西为代表的Ⅰ类国家，采取了不合理的防疫政策，累计确诊人数持续增长，增长速度也一直保持在一个水平。以印度为代表的Ⅱ类国家，在疫情前期有采取过一定的防疫措施，而一段时间后政策变得宽松，没有继续采取严格的隔离措施，因此疫情前期确诊人数增速较缓慢，后期确诊人数不断攀升且增速上升。以中国为代表的Ⅲ类国家，从疫情初期一直采取着严格的防疫政策，累计确诊人数在上升到一定程度后保持稳定，疫情得到了较好的控制。
　　针对三个国家所建立的ARIMA模型都能较好地拟合真实的疫情趋势，将三个模型的短期预测结果和现实值进行对比，也能说明模型的拟合效果较好，如印度的预测中平均相对误差可以达到0.009。根据预测结果，三类国家的累计确诊人数在未来仍会不断增加，但Ⅲ类国家的增速会比Ⅰ类国家和Ⅱ类国家平缓。
　　5.2 建议
　　利用ARIMA模型拟合预测的结果，I类国家和Ⅱ类国家仍处于疫情发展期，Ⅲ类国家处于疫情平稳期，Ⅰ类国家和Ⅱ类国家应制定并实施严格的防疫策略，令居民做好个人防护，必要时采取强硬的隔离措施，政府部门积极开展舆情监控，普及疫情防控，做好疫情防控的工作，减少大型聚集活动，通过多种途径做好工作和特定人群个人防护的指导，减少人群中可能的接触或暴露，采取严格的出入境管制措施;Ⅲ类国家则不可掉以轻心，应继续保持，防止疫情的二次爆发。
　　现如今，新冠疫情仍在全球蔓延，利用本文中基于聚类分析思想建立ARIMA模型的方法，可以对短期内疫情的趋势做出预测，为疫情防控提供参考。
　　六、参考文獻
　　[1]高惠璇. 应用多元统计分析. 北京：北京大学出版社. 2005.1
　　[2]易丹辉、王燕. 应用时间序列分析（第5版）.北京：中国人大学出版社. 2019.7
　　[3]温亮、黄清臻等. 运用ARIMA模型预测巴基斯坦新型冠状病毒肺炎疫情发展趋势的结果分析. 解放军预防医学杂志. 2020（08）-0096-05
　　【作者简介】
　　杨淘（2000.6-），女，汉族，广东佛山人，本科生学历，华南农业大学学生，研究方向：统计学。

其他文献

翻车机卸煤时扬尘的产生与抑尘方式研究

摘要：翻车机系统是一种非常专业化的散装物料卸料系统，它用于火车装载的散状物料的自动翻卸。但是，翻车机系统在翻卸散装物料的过程中，由于落差较大，煤排开的大量空气携带粉尘到处飞扬，造成翻车机室空气严重污染，所以在翻车机作业时要采取合适合理的除尘方式对现场粉尘进行治理。　　关键词：翻车机卸煤;干雾抑尘;袋式除尘;　　前言：翻车机系统是敞车装载的大容量散状物料进行自动翻卸的现代化专用手段，它广泛应用于各类

期刊

陶瓷彩绘创作中与水彩画的融入初探

摘要：陶瓷彩绘作品的创作本身具有一定的多元性，要想充分凸显其中的特色，就应当在现有的构建基础上，将绘画作品与之紧密的结合在一起，构建出新的创作思路。水彩画的结构形态和具体的艺术特色本身相对较为丰富。在传统的陶瓷彩绘艺术作品之中，也将水墨画的原理应用在其中，形成了富有特色的陶瓷彩绘作品，而随着时代的发展，创作模式的优化创新，多种新型的艺术表现形式逐渐的与我国传统的陶瓷彩绘手法相融合，形成了新的陶瓷彩

期刊

不动产登记制度存在的问题及解决措施

摘要：随着社会经济发展，原有的不动产登记制度逐渐显露不足，需要做好研究分析工作。文中以不动产登记制度为着手点，分析不动产登记制度的内涵，总结不动产登记制度存在的主要问题，结合实际情况给出改进不动产登记制度的措施。　　关键词：不动产登记;制度问题;解决措施　　实行不动产登记制度能够把房地产经纪领域的各项资源进行统筹分配和合理利用，提高信息的对称性，为我国房地产经济的发展提供数据支持，让我国房地产经济

期刊

先进焊接工装夹具及其在机械装备制造业中运用分析

【摘要】基于对先进焊接工装夹具及其在机械装备制造业中的运用分析，首先对焊接工艺工装夹具进行了概述了;其次分析了在机械装备制造业中先进焊接组合工装夹具的运用;最后对于先进焊接工装夹具中计算机所发挥出的辅助作用展开分析，以此来生产出更多更加优质的机械产品，进而有效的促进我国机械装备制造业的健康快速发展。　　【关键词】先进焊接工装夹具机械装备制造运用　　引言　　在我国的制造业当中，现代的焊接技术在

期刊

社会主义核心价值观在中职《仓储与配送》课程教学中的运用

摘要：仓储与配送课程以其突出的工程性和应用性，对培养学生良好的工程意识、较强的实践能力和较高的综合素质起着非常重要的作用。除此之外，课程思政不仅要注重技术的应用，更要体验渗透行业的优秀文化与伦理，尤其是传统文化的优秀内涵，增强青年学生的文化自信，塑造社会意识，体现中国建设者的责任和风度。　　关键词：课程思政;仓储物流创新;传统文化　　引言：在具体教学过程中，要充分挖掘我国当前仓储与配送实务教学发展

期刊

电扶梯设备故障原因分析及故障预防性维护策略研究

摘要：随着时代发展，电梯成为人们生活中非常常见的工具，相比于垂直电梯，电扶梯的载客能力更强，适用在人员众多、环境拥挤的场所中，比如在大型商超、医院、地铁内，电扶梯是最基础最实用的工具，相应的，电扶梯设备的安全性和可靠性也越来越受到人们关注，电扶梯出现故障很容易对人们生命安全造成伤害，且容易造成群死群伤事件，相关电扶梯设备维护单位需要做好故障预防性维护，尽可能减少故障发生的可能性，满足人们出行需求，

期刊

转炉炼钢工序提高冶炼高碳钢质量工艺优化

摘要：在转炉炼钢工序中，高碳钢炼成率较低，根据我厂生产高碳钢现状，对冶炼高碳钢时的要点及工艺进行总结与优化，并总结出了一些能够有效地对高碳钢的质量有所提高的措施。　　关键词：高碳钢;终点碳;高拉补吹法;工艺优化　　Abstract：In the converter steelmaking process，the high carbon steel refining rate is low. Ac

期刊

切实加强办公场所消防设施检查管理

摘要：在办公场所中不仅具备人员密集的特点，所包含的设施也具有复杂性的特征，所以在实际工作中需要加强对办公场所消防设施的检查以及管理，根据办公场所特点和人们的日常行为提高后续检查的针对性，同时还需要及时的发现些老旧的设备，督促相关负责人及时更换新型的设备，从而提高办公场所的安全系数。本文论述了办公场所消防设施检查管理的策略，提高实际工作的效果。　　关键词：办公场所;消防设施;检查管理　　一、辦公场所

期刊

地铁车辆基地含油废水处理工艺应用研究

【摘要】随着我国我国经济的发展以及社会的进步，地铁车辆已经成为我国城市轨道交通中的重要组成部分，并且以方便、快捷、安全、便宜、准时等优势备受青睐，成为人们日常生活的重要选择。但是，面对地铁交通发展的越来越完善，很多问题也被展现出来。其中，地铁车辆基地是含油废水产生的主要场所之一，并且这种物质具备可生化性较差以及一定量的难降解物质等特点，因此就需要根据废水的具体组分以及特征和不同的处理工艺、设备相配

期刊

加强人力资源主管部门在人力资源服务招标中的作用

摘要：现阶段，我国的经济增长较为迅速，各行业实现了快速良好的发展，这样的形势下市场竞争形势日益激烈，企业若要获得更大的市场份额，那么需要不断增强核心竞争力。人力资源作为企业发展中的核心资源，需要企业人力资源主管部门人员具备较强的工作能力，继而可以实现有效的招标监管，以此为企业带来良好的资源收益。本文就加强人力资源主管部门在人力资源服务招标中的作用进行分析与探讨，以供相关人员参考。　　关键词：人力资

期刊

基于聚类分析和ARIMA模型对不同类型国家的疫情趋势预测

与本文相关的学术论文