论文部分内容阅读
研究背景:近年来,随着我国医疗信息化技术不断发展,大量的医学信息原始数据得以记录和保存下来,如流行病学的调查数据、医院的信息化数据等。这些医学数据在数量迅速增加的同时,其质量和准确度也在不断提高。如何借助恰当的统计分析方法,来挖掘这些海量的数据信息,以更好的为医疗卫生行业的管理、医院的诊疗、科研和教学服务,从而进一步为医疗决策提供支撑,已经成为国内外统计学界较为关注的热点问题。然而,在实际研究中,此类计数数据常常会出现零过多的现象,这种现象在流行病学调查数据中尤为常见。所谓零过多现象是指在计数数据中零的个数明显多于按照泊松分布、二项分布或负二项分布等标准离散分布随机产生的零的个数的现象。计数数据中取值为零的数量过多,会导致数据过度离散。对于该类零过多的计数数据,如果仍使用普通的计数模型去拟合,将会导致参数估计的偏差过大,甚至做出错误的推断。为了解决零过多计数数据的过离散问题,针对该类数据的特点,分成零计数(零点的退化分布)和非零计数(取值为泊松分布)两个部分建立混合回归模型,即零膨胀泊松回归模型(Zero-inflated model,ZIP)。研究目的:本研究针对医学研究中普遍存在的零过多的计数数据的问题,构建零膨胀模型,对于小样本资料,引进贝叶斯的方法,构建贝叶斯零膨胀模型并与传统模型比较,模拟不同样本量和不同零过多比例等多种数据情境,从准确性、精确性和模型的拟合优度等多个方面对构建的模型进行评价,探索不同的数据情境下最优的参数估计模型。同时,为了增加模型估计的可靠性,引入Bootstrap统计技术。本研究可以为今后流行病学调查数据中零过多数据的统计分析提供方法学支持。研究方法:首先进行原始数据的模拟,数据模拟设置不同的样本量,分别为1000、500、100,同时考虑不同的离散程度,设置不同的零比例,分别为0.9、0.8、0.7、0.6,模拟不同的数据情境下的最优模型。1.模型构建基于大样本的情况下,构建零膨胀泊松回归模型(ZIP)、零膨胀负二项泊松回归模型(Zero-inflated negative binomial,ZINB)并与传统的泊松回归和负二项回归进行比较;基于小样本的情况下,构建贝叶斯零膨胀泊松回归模型(Bayesian zeroinflated Poisson)、零膨胀负二项泊松回归模型(Bayesian zero-inflated negative binomial model)并与贝叶斯泊松回归模型、贝叶斯负二项回归模型进行比较。同时,模型构建的过程中引进Bootstrap统计技术,根据原始样本量大小进行有放回等样本重复抽样,每次抽样200次,然后对这200个复样本进行统计分析。2.模型评价分别从准确性、精确性和和模型拟合度三个方面,使用绝对偏倚、置信区间覆盖率、标准误、置信区间宽度和模型拟合度五个指标对模拟的结果进行全面、客观科学的评价。综合以上五个指标可全面评价模型模拟的结果,为今后医学数据不同模型评价提供了方法学参考。3.实例分析将构建的零膨胀模型应用于卫生服务调查实例研究中,大样本的实例分析选择对上海市居民患慢性病数的影响因素进行分析;小样本的实例分析选择对上海市浦东新区农业户口居民年住院次数的影响因素进行分析。实例分析中构建不同的模型进行统计分析,并对模拟研究的结果进行实例验证。研究结果:本研究的结果分成两个部分,分别是基于大样本和小样本两个不同的部分。基于大样本构建四个模型。先从准确度和精确度方面进行比较,然后比较所有模型的拟合优度指标AIC值。当样本量为1000、500时,我们发现这两个传统计数模型随着零比例的增加,在准确度方面,其绝对偏倚的值是不断增加的,置信区间的覆盖率也越来越低;在精确度方面,标准误也是增大的趋势,其置信区间的宽度不断增加。由此可见,传统计数模型模拟结果的准确性和精确性并不高,传统计数模型对于零过多数据的模拟结果并不是很理想。然而,相同条件下零膨胀模型的模拟结果比传统计数模型要好很多。基础零膨胀模型的AIC值,普遍比基础计数模型的AIC值小,即基础零膨胀模型的拟合度比基础计数模型要好,而负二项回归拟合度优于泊松回归。在零比例为0.6、0.7时,模型拟合度比较分别为:零膨胀泊松回归模型优于零膨胀负二项回归优于负二项回归优于泊松回归;零比例在0.8、0.9时,零膨胀泊松回归与零膨胀负二项回归的拟合度基本一致,均优于负二项回归,负二项回归又优于泊松回归。基于小样本构建四个模型。在样本量为100,零比例为0.8、0.7、0.6时,贝叶斯泊松回归和贝叶斯负二项回归这两种模型的准确度和精确度。我们发现这两个模型在随着零所占的比例增加,在准确度方面和精确度方面以及模型的拟合度方面均不是很理想。在比例为0.9时,贝叶斯泊松模型和贝叶斯负二项模型无法拟合,可见贝叶斯传统计数模型对于小样本零过多计数数据的模拟结果并不是很理想。在零比例为0.6、0.7、0.8时,从模型准确度、精确度和拟合度方面比较分别为:零膨胀泊松回归模型与零膨胀负二项回归模型模拟结果相差不大,贝叶斯负二项回归模型优于贝叶斯零膨胀模型优于贝叶斯泊松回归模型;零比例在0.9时,贝叶斯零膨胀泊松回归与贝叶斯零膨胀负二项回归的模拟结果基本一致,均优于贝叶斯传统计数回归模型。实例分析中基于大样本的统计分析结果与模型数据模拟的结果较一致,验证了对于零过多数据零膨胀模型优于传统计数模型,并得到了影响上海市居民患慢性病数的一系列危险因素。基于小样本的统计分析结果与模型数据模拟的结果也比较一致。研究结论:根据卫生服务调查数据不同的零过多计数数据特点,选择合适的零膨胀模型分析方法优于传统计数模型,能够有效的减小偏倚。在小样本条件下,贝叶斯零膨胀模型分析方法略优于贝叶斯传统计数模型分析方法。此外,零膨胀模型的分析方法在具有层级结构的零过多数据和高维零过多数据中的的表现尚需要进一步探索研究。