论文部分内容阅读
研究目的使用谷歌流感的预测结果,结合补充替代医学概念集相关检索词条的网络信息发生率,建立信息流行病学流感预测模型,验证模型预测准确性,并与传统单纯纳入西医概念的模型进行性能比较。研究方法1)识别出西方网络用户在使用搜索引擎检索CAM相关流感健康信息时,最容易接触到的疗法信息。根据网络供求关系对等的原理,推测网民在流感CAM健康信息需求下,常用的检索词;2)应用Google Trends(GT)服务,获得上述检索词在2004年10月~2015年4月的网民检索需求变化趋势信息,进行相关分析及滞后相关分析,识别出与CDC报道的美国流感样新增病例趋势有相关性的词条,将这些词条在2004年10月~2010年4月的检索趋势信息作为数据集QCAM;3)使用2004年10月~2010年4月GFT的历史预测数据+QCAM训练两种流感实时播报模型(Nowcasting CAM model for influenza,NCAM),使用得到的模型模拟播报 2010年10年~2014年4月的美国流感发病率,并与CDC流感样新增病例数据对比(现实世界参照数据),获取建模准确性度量指标,对比两种NCAM模型与GFT的模型预测效果;4)将对比具有优势的NCAM实时播报结果用于建立CAM流感预测模型(ForcastingCAM model for influenza,FCAM),并与文献前人文献提出的自回归+GFT模型预测结果进行比较,确定优势预测模型。研究结果通过对网络需求侧信息的研究,获得美国常用补充替代医学相关流感疗法53种。Pearson相关分析发现与流感发病具有较好相关性的词条7个,分别是巨髎(R=0.4749,p<0.001)、菊花(R=0.4573,p<0.001)、生姜(R=0.4626,p<0.001)、欧斯洛可舒能(R=0.7927,p<0.001)、磷(R=0.7927,p<0.001)、维生素 A(R=0.6380,p<0.001)、维生素D(R=0.6089,p<0.001)。使用7个变量进行建模后,获得的弹性套索NCAMF模型(R2=0.54;MAE=0.221;MAPE=10.8%)对流感的实时播报效果优于GFT模型(R2=0.89;MAE=0.00381;MAPE=20.4%)。进一步引入自回归项建立的FCAMF模型(R2=0.96;MAE=0.00119;MAPE=7.3%),对2周后流感预测效果优于前人报道的GFT改良模型(R2=0.89;MAE=0.00326;MAPE=14.3%),且散点图可见,其纠正了 GFT对流感发病过度预测的情况。研究结论1)将补充替代医学治疗流感疗法检索词纳入谷歌流感趋势模型,可显著提高模型预测效果。2)使用ELASTIC NET方法建立整合现代医学与补充替代医学的流感预测模型,具有良好的流感实时播报性能。3)将ELASTIC NET建模结果结合自回归方法建立时间序列模型,对2周后流感情况进行预测,预测效果良好。