论文部分内容阅读
重复测量计数数据是医学研究中经常遇到的一种资料类型,分析中常由于忽视重复测量间的相关性,分别对每个时间点数据进行分析,加大I 型错误的概率。也有人常把单位时间、单位空间某事件发生次数当作服从正态分布的连续型随机变量处理,带来更大的分析偏性,甚至得出错误的结论。因此,探讨多个协变量影响,考虑其内部相关性,重复测量效应变量的随机效应模型研究具有重要的意义。
文中在简单介绍计数数据基础模型原理基础上,系统阐述了重复测量计数资料的固定效应Poisson 回归和随机效应Poisson 回归模型分析及应用。与固定效应模型相比,随机效应Poisson 回归不仅适于分析重复测量非独立数据,且可考虑协方差结构影响,容纳更大的变异。临床恶性肿瘤患者化疗后呕吐发生次数的影响因素分析,完成了SAS nlmixed过程实现。结果表明,随机效应Poisson 回归分析,模型结构简单,解释符合实际;引入个体间随机变异,得出随化疗时间延长,呕吐反应次数逐渐减少的结论;若忽视重复测量时点间的相关性,采用固定效应模型分析,可能会把未表现出有统计学意义的结果认为有差别,加大犯I 型错误的可能。
若同一个体重复测量某事件发生次数间非独立,且其方差远大于均数,即应采用随机效应负二项回归。文中第二章主要讨论了随机效应负二项回归模型的基本原理,模拟对比研究了五种过度离散检验方法与样本含量的关系。结果表明,假定断面资料服从Poisson分布,在离散参数0? K时,O 检验仍将该资料错误地诊断为过度离散,而其余四种检验方法随样本量的增大,检验特异度逐渐增高,以残差回归检验1(Test1)和LM 检验特异度最高。过度离散参数02. 0? K,样本含量50? N时,O 检验、残差回归检验1(Test1)和残差回归检验2(Test2)灵敏度均较高;随样本含量增加,离散参数k值的增大,样本含量在200以上,且离散参数在0.1~1之间,五种检验方法检验结果基本一致,过度离散参数02. 0? K,样本含量在100以下时,O 检验、Test1、Test2 灵敏度也较高,但LM 法与Score 检验的灵敏度均很低。经五种过度离散检验方法的模拟对比综合分析,残差回归检验1(Test1检验)较其它四种检验方法更优,是一种值得推荐的过度离散检验方法。经对山西医科大学第二医院心电信息科2008年-2009年间,因心前区不适来医院就诊可疑冠心病患者162例,24小时动态心电图(hoter)检测,室性心动过速(室速)发生次数资料分析。可疑冠心病患者室速平均发生次数为0.06次/人/24h,标准差为1.049次/人/24h。151名受检者未发生室速(93.2%),室速发生次数2次及以下占到总人数的97.5%,选择随机效应负二项回归分析结果解释更合理;年龄、吸烟、饮酒均对室速发生次数有影响;随机效应方差估计值为13.8019,其95%可信区间为(3.9901,23.6136),表明资料存在过度离散现象。由随机效应负二项回归模型-2 LL、AIC和BIC值与固定效应负二项回归模型结果比较,表明随机效应负二项回归模型对该资料拟合效果较优。
实际问题研究中,事件发生数中若含有大量的零,且零比例超过Poisson 回归的预测能力,采用传统的Poisson 回归将会低估事件中发生零的概率。零膨胀计数回归模型和Hurdle 模型虽可用于处理零频数过多的计数资料,但均要求观察值间相互独立,尚未解决重复测量(repeated measured)或存在群聚效应(cluster effect)资料的零频数过多问题。文中第三章将零膨胀计数回归模型和Hurdle 模型扩展到重复测量聚群数据研究中,建立了随机效应ZIP和随机效应Hurdle 模型,提出采用边际最大似然估计,进行随机效应ZIP模型的参数估计。模拟结果表明,样本含量不同,随机效应ZIP 模型参数估计值和模拟真值都很接近,估计良好。固定效应ZIP 模型虽考虑了过多零计数,但由于没有考虑个体内各时点间的随机变异,估计值和模拟真值相差较大。固定效应ZIP 模型Poisson 回归部分的截距项和模拟真值相差尤明显,高估了截距而低估了回归系数估计值;在样本含量较小时,这些问题显得尤为突出。随机效应Poisson 回归考虑了随机效应,但忽略了数据中存在过多零问题,参数估计值明显高估,截距项低估,但协变量回归系数估计值与模拟真值相对接近。表明在重复测量或存在组群效应的零过多计数资料分析中,随机效应Poisson回归和固定效应ZIP 模型都有缺陷,推荐采用随机效应ZIP 模型拟合。
经对随机效应ZIP、随机效应Poisson 回归以及固定效应ZIP 模型实例对比研究表明,重复测量计数数据,伴有零计数过多问题时,随机效应ZIP 模型分析要比随机效应Poisson模型拟合更好。离体心脏心律不齐的药效研究资料随机效应ZIP 模型分析进一步表明,RE-ZIP 模型中,logit 回归估计结果提示,试验前的基础心率不齐次数是影响大鼠实验中是否发生心律不齐的因素;Poisson 回归估计结果提示,随实验时间增加,大鼠心律不齐发生次数逐渐减少;与A 药组相比,B 药、C 药的效应差别有统计学意义,即采用B 药或C 药治疗,大鼠心律不齐发生次数较A 药组更少;试验前基础心律不齐次数越高,大鼠心律不齐发生次数也越多。
针对重复测量计数资料中零频数过多和过度离散并存的问题,本文第四章提出采用随机效应ZINB 模型分析。四模型模拟对比研究表明,由于随机效应ZINB 模型既考虑了个体测量值间的相关性,又考虑了计数数据零过多以及过度离散问题,结果优于随机效应ZIP 模型、固定效应ZINB 模型和固定效应ZIP 模型。离体心脏心律不齐的药效研究资料随机效应ZINB 模型分析表明,四种模型拟合优度指标,RE-ZINB 模型BIC值最小,依次为FE-ZINB、RE-ZIP与FE-ZIP 模型,而AIC和LL 指标结果与BIC 结果相同,仍以RE-ZINB 最优。可见,对于离体心脏心率不齐资料,因为其既存在过多零又存在过离散,拟合RE-ZINB 模型效果较优。提出既具有零过多,又具有过离散的重复测量计数资料,采用随机效应ZINB 模型进行分析,解释更合理。它不仅可解决个体重复测量间的相关性,还可解决零膨胀计数资料的过度离散问题。
零膨胀模型研究,常规采用极大似然估计。为进一步证实Bayesian估计的优势,文中第五章采用基于Power先验的Bayesian估计法分析。它不仅可充分利用历史数据提供的信息作为先验,而且可结合样本资料,获得参数的后验分布。模拟研究和实例分析进一步证实,零膨胀模型Bayesian估计方法与传统的极大似然估计方法相比,其估计误差更小,精度更高。它不仅可充分利用资料的先验信息和样本信息,得到联合后验分布,其估计和推断均建立在后验分布的基础上,方法合理,更便于实际问题的解释。
综上所述,重复测量计数资料研究中随机效应Poisson 回归是基础模型;过度离散的重复测量计数资料,选择随机效应负二项回归拟合效果更佳;重复测量计数资料含有过多零,推荐选用随机效应ZIP和随机效应hurdle 模型;随机效应ZINB 模型,既可解决重复测量计数资料中含有过多零,且具有过度离散的问题,尚可对变异参数进行估计与分析。基于Power 先验的零膨胀回归模型,Bayesian 估计与极大似然估计参数估计结果相近,但Bayesian 估计精度更高。
其创新之处:1、模拟证实并阐明了样本含量与五种过度离散检验方法的关系,完成了过度离散重复测量计数数据的随机效应ZINB 模型软件实现。2、首次提出既具有零过多,又具有过度离散的重复测量计数数据分析,采用随机效应ZINB 模型解释更合理。3、在国内首次采用基于Power 先验的Bayesian分析,进行了零膨胀模型的参数估计,提出零膨胀模型Bayesian 估计与极大似然估计相比,估计误差更小,精度更高。