论文部分内容阅读
约翰·霍普金斯大学的疫情地图又创纪录了。这是全球最受关注的新冠肺炎数据统计网站,1月底上线,日访问量从2亿次攀升至20亿次。当记者采访网站主要制作人、该校土木与系统工程系的中国博士生董恩盛时,他告诉记者,最近的日访问量高峰已达45亿次。网站全称是“交互式、实时监控新冠病毒的仪表盘”,就是将收集来的数据做成可大可小的红点,实时反映全球确诊人数。人们更习惯称其为疫情地图,目前单一图层的累计访问量就有161亿,相当于世界上每个人平均打开它至少两次。记者与董恩盛约定时间,他在美国东部的马里兰州,与北京时间相差12个小时,经过比对,最终定在美国东部时间晚上9点。随时计算时差是他制作疫情地图时养成的习惯,这几个月就像在“与时差作战”。
每个国家都有人访问的疫情地图
1月17日,新冠肺炎疫情已在中国暴发,董恩盛正在学校,“我是中国人,很担心国内疫情”,便想制作模型呈现疫情发展。几天后,其他国家也曝出疫情,董恩盛的导师劳伦·加德纳也意识到模型的重要性,两人一拍即合。董恩盛花了七八个小时做了初版的疫情地图网站,整理各国公布的数据,于1月22日上线。
不过,全球有24个时区,要实时整理所有数据,他几乎连轴转。每天,他在美东时间早上8点半更新第一次,“这个时间正赶上国内卫健委更新数据”,然后在中午12点、下午三四点、晚上8点前查看。晚上8点后,许多欧洲国家更新数据了,他有时也会查看。于是,他每天要确认至少4次,下了课就查数据,只睡四五个小时。起初,他只能手动更新,澳大利亚报告首例确诊病例那天,就因为太累睡着而错过了。“一觉醒来,发现有好几个未接电话,是导师打给我的,告诉我澳大利亚出现病例。”
疫情暴发速度非常快,各国的统计网站也不断在细化,“以中国为例,一开始是全国确诊数,几天后变成各省,之后又细化到市、县等。疫情暴发的国家增多,许多统计网站开始分大洲”。这些统计单位每变一次,疫情地图的程序也要变,即便不眠不休也赶不上全球确诊人数增加的速度。直到2月初,他的中国同学杜鸿儒加入小组,让他们告别了“纯手工作业”。
杜鸿儒和董恩盛均是加德纳指导的学生,他设计了自动抓取中国数据的程序。杜鸿儒告诉记者:“当各国数据更新,计算机便会监测到,马上给我们发邮件。如果确诊人数突然减少,这明显不合逻辑,我们就要上网查证。”这节省了许多时间,他们可把精力放在人工核实上。杜鸿儒说,董恩盛很细心,“核实美国3000多个郡县的确诊数据时,他几乎没有遗漏,一个人完成了庞大的数据整理”。如今,疫情地图每20分钟便能自动更新一次。
疫情地图项目开设了面向全球的邮箱,“任何人发现数据不对或未更新,都可以发邮件告诉我”。有网友发现自家临近地区有了新病例,但当地政府或媒体未更新,就发邮件给董恩盛。“第一时间从用户那获得当地的数据,使得疫情地图更新速度远快于许多国际媒体。”
除了更新快,动态、可视化设计也使疫情地图在众多统计网站中脱颖而出。大部分疫情统计网站只能呈现某国的确诊人数,或用颜色深浅显示确诊数量,“深的代表确诊数多”。但董恩盛设计的地图用大小不一的红点呈现确诊数的多寡,缩小地图可见红点在全球的分布,放大则能看到各国、各城市或郡县的数据。他记得,疫情地图受到关注后,日本、泰国、以色列等国也参照这个模式设计统计网站。在一些医疗条件不是很先进的国家,老百姓能借此了解自己国家和邻国的疫情。“疫情地图上线两周,几乎每个国家都有人访问我们的网站。”
自疫情暴发以来,国内外媒体介绍疫情时,常引用疫情地图的数据,美国、德国、意大利的卫生部门和各级政府开会讨论时,会议室大屏幕实时展示的也是疫情地图,导师加德纳也被邀请到国会演讲,介绍这幅“地图”。2月19日,世界顶级医学期刊《柳叶刀》的副刊《柳叶刀传染病》发表了董恩盛、杜鸿儒与导师联合撰写的文章《实时追踪新冠病毒的交互式网站仪表盘》,介绍疫情地图的設计和数据。学术期刊从投稿至发表,一般短则几个月、长则一两年,但这篇文章不到3天便发表了。并且,一般来说,谷歌学术引用量能上百已是不错,这篇文章目前的引用量已超300次。此外,董恩盛和团队还分别收到诺贝尔化学奖得主、经济学奖得主发来的邮件,感谢他们制作的疫情地图。
对“确诊”的定义不同成最大难题
董恩盛可以这么快制作出数据模型,因为以前就有传染病的建模经历。去年,美国暴发了25年来最严重的麻疹疫情。董恩盛入学没多久,就跟着导师做了可视化模型,预测美国麻疹病毒风险。他们研究国际大都市,“这类城市的国际航班很多,如果航班出发地病例多,而到达地的麻疹疫苗接种率不高,就可能暴发疫情”。根据这个模型,他们成功预测到洛杉矶1月份暴发的麻疹。
不过,这次制作新冠肺炎疫情地图时,董恩盛发现各国对“确诊”的定义并不一样,有的分类很繁杂,给统计带来了巨大挑战。一般来说,“检测试剂呈阳性的患者”和“新冠肺炎病例”是两种对确诊病例的说法,前者是检测结果,后者是经由官方确认检测结果且已对外公布的病例。确诊人数一般指这两个分类的总和。由于确认流程需要时间,在发现新病例时,不少媒体会先以“试剂呈阳性”报道病例数。
董恩盛介绍,在法国,“确诊病例”指医院内确诊的 医院外确诊的病例,排除了检测结果呈阳性的人。但同时法国还有一种分类“医院外确诊的病例”,指在医院外确诊 检测结果呈阳性的病例。这两个分类重复的部分是医院外确诊的病例,而一些国际媒体报道时直接将这两个分类相加,导致数据重叠。董恩盛便请懂法语的志愿者每天上法国网站,听政府长达半小时的法语新闻发布会,记下不同分类的数据,从中摘取出“医院内确诊 医院外确诊 检测结果呈阳性的病例”,这个数字便是我们通常理解的确诊人数。
此外,領地归属也影响了统计。法国有些海外领地和省,而官方公布的确诊人数并未明确说明是否包含这些地区,最近董恩盛和团队正和法国卫生部门沟通,确认数据含义。
保护确诊患者的隐私也很重要。此前,“钻石公主号”游轮上出现了美国病例,后来部分人撤回美国,董恩盛和团队决定,把这些病例加到总的确诊数中,但为了保障病人隐私,不在某个地点标记出数字。