论文部分内容阅读
目的引入一些基于设计和基于模型的小区域估计量;并通过一项精心设计的模拟研究和我国2006年全国人群乙型肝炎血清流行病学调查(NHBSS)数据的实例分析,比较分类数据不同类型小区域估计量的估计效率;以便为今后有效分析类似的复杂抽样小区域数据提供方法学参考。方法文献复习和综述基于设计和基于模型的一些重要小区域估计量。由于NHBSS能利用的辅助信息是按年龄-性别事后分层的总人口数,确定基于设计的间接估计量包括事后分层计数-综合估计量、复合估计量和样本大小依赖(SSD)估计量。研究变量为二分类变量,故基于模型的间接估计量选择等级贝叶斯(HB)估计量。扩展估计量作为基于设计的无偏估计量。基于NHBSS调查进行Monte Carlo模拟试验,重复抽样R=500。以平均绝对相对偏倚(AARB)度量偏倚,平均相对均方误(ARMSE)度量精度,分析比较5种不同类型估计量的估计效率。NHBSS数据实例分析中以相对偏倚(RB),相对标准误(RSE)和相对均方误平方根(RRMSE)评价5种估计量的可靠性。结果模拟研究中,1~59岁年龄组,无论HBsAg或抗-HBs,HB估计量偏倚最大,但估计精度最高。扩展估计量、综合估计量以及复合估计量和SSD估计量的偏倚和精度差异较小。相对于HB估计量而言,这些估计量偏倚较小,估计精度相对较低。总体而言,复合估计量估计效率最好。另外,待估计参数越小,5种估计量偏倚越大,估计精度也越低。除1~4岁年龄组HBsAg流行率HB估计量的ARMSE最大外,其余HB估计量的ARMSE最小。与1~59岁年龄组结果一致,1~4岁,5~14岁和15~59岁年龄组HB估计量偏倚最大。抗-HBs扩展估计量、综合估计量以及复合估计量和SSD估计量的偏倚和精度差异甚微。各年龄组HBsAg复合估计量的ARMSE仅次于HB估计量。总体而言,复合估计量估计效率最高。另外,估计量的偏倚和精度大小与年龄组期望样本和待估计参数大小有关。期望样本和参数越小,估计量偏倚越大,估计精度也越低。抗-HBs中,15~59岁年龄组各估计量偏倚最小,估计精度最高;5~14岁年龄组各估计量偏倚最大,估计精度最低。NHBSS数据实例分析中,无论HBsAg或抗-HBs,各年龄组复合估计量平均均方误平方根(Av.RRMSE)最小,说明复合估计量的可靠性最好。其次为SSD估计量,再其次为综合估计量。1~4岁和5~14岁HBsAg流行率HB估计量以及1~4岁抗-HBs流行率HB估计量的Av.RRMSE小于扩展估计量的Av.RRMSE,说明样本较小或估计参数较小时,HB估计量的可靠性优于扩展估计量。在此情形下,扩展估计量的可靠性最低,如1~4岁和5~14岁HBsAg流行率扩展估计量的Av.RRMSE分别高达56.69%和40.46%。结论本次研究结果虽不能促使小区域估计研究方法有所突破,但有助于进一步深入分析或二次分析大规模调查数据。使用按年龄-性别事后分层总人口数辅助信息时,就NHBSS调查数据而言,复合估计量估计效率最高,其次为SSD估计量。HB估计量的结果不能令人满意,说明所使用模型并不完备。后续研究需要在模型中加入更多的参数或效应,以改进模型的估计,降低估计量的MSE。小区域期望样本较小且待估计参数较小时,扩展估计量估计精度最低,应尽量避免使用;但小区域待估计参数较大或者区域样本大小适中或较大时,可直接选用扩展估计量。