论文部分内容阅读
研究目的:提出带自回归项的广义相加模型,并研究气温,湿度对上海市每日流感样病例的影响。研究意义:流感样病例人次是一个时间序列,而时间序列分析往往基于数据对发生在它之前的数据的依赖。但常用的GLM和GAM本质上是概率模型,没有使用因变量的自相关性的信息。另外,采用最大似然法估计GLM和GAM的参数值时,一般假定观测之间相互独立,但这不一定成立。文中提出的GAMAR可以解释因变量的自相关性,不仅仅对本研究的数据较好的拟合和解释提供了方法,而且为其他类似研究方法的选择提供一种新的可能性。流感是一个对人类健康危害极大的疾病。试验证实了气候因素与流感病毒的传播有着密切的关系。但气候因素与流感样病例关联性的流行病学研究还较少。上海是一个国际大都市,面临着流感季节性流行和暴发的风险。了解气象因素对流感的作用,有利于人们应用相应的措施来控制流感的流行,减少流感暴发的风险,有助于医院管理人员对医疗资源的调配,也有利于对流感的暴发作出预警。统计方法:提出带自回归项的广义相加模型,并用模拟研究来比较GAM与GAMAR在应用于因变量有自相关性的数据中的表现。建立模型:先采用基于GAM的Poisson回归,利用自然立方样条函数来代表长期趋势,以及日均气温,相对湿度,日均气压,大气污染物效应PM10,SO2,NO2的非线性效应,用哑变量描述星期效应,分析流感样病例与气候因素的关联性。发现其Pearson残差存在自相关的现象,继而采用GAMAR进行估计。预测模型:前文中模型包含一个长期时间样条,这使得它不可能被用于预测。若用GAM模型进行预测,未来流感样病例趋势的不确定性可能会影响预测的精度。而采用GAMAR进行预测,由于AR项本来就包含了以往时间趋势的信息,因此GAMAR本质上能够用以往的数据来预测以后的变化趋势。为证明这一点,对调整时间趋势前后的流感样病例采用GAM/GAMAR拟合结果进行交叉验证。结果和结论:本文提出了拟合环境流行病学中时间序列的GAMAR模型,模拟研究证明了在拟合有自相关性的数据时,GAM的参数估计结果有错误,而GAMAR可以给出正确的估计结果。接下来采用GAM构建了流感样病例关于气候与大气污染物的统计模型,但是发现其Pearson残差有严重的自相关性,违背了GAM的模型假设;因而采用GAMAR建模。GAMAR给出的Pearson残差基本上没有自相关性。通过对比发现,GAMAR给出的变量效应比GAM的更平缓一些。对GAMAR而言,23天前的日均气温在10℃C和30℃C时对应的当天流感样病例最高,在15~25℃时对应的流感样病例最低,效应曲线呈双峰状。4天前的相对湿度较低时,当天的流感样病例比较高,然后随着湿度的增加而降低,在65~80%时流感样病例有一些波动,在高于80%时继续降低。因为未来的总体变化趋势是未知的,所以预测模型中不能包括时间的趋势样条,自然能够包含过去信息的GAMAR是预测模型更好的选择。通过交叉验证发现,GAMAR果然比GAM在是否调整长期趋势的问题上更稳健。并且无论是否调整长期趋势,GAMAR均比GAM在交叉验证中表现得更好。