论文部分内容阅读
在农业、医疗、公共卫生、金融、保险等众多领域,都存在着大量的计数数据。分析处理这类计数数据的最基本模型是泊松回归模型、负二项回归模型等经典离散回归模型。这类数据中有些计数数据会出现大量的零数据,比如牧场动物患流行肺炎的次数、动物粪便中虫卵数等等。这些数据中的零要明显多于泊松分布、负二项分布等离散分布产生零的个数,我们称这类数据为零膨胀数据,也就是含零过多的数据。零膨胀数据在各个领域受到了越来越多的重视。近些年来,国内外学者们在各种应用背景下提出了许多处理零膨胀数据的模型。例如ZIP模型、ZINB模型、Hurdle模型等等。本文主要研究对象就是这类特殊数据,详细介绍了处理这类数据的典型模型,并应用于兽医流行病领域的一些计数数据。具体研究内容如下。本文第一章介绍了研究背景。第二章介绍了泊松回归模型和负二项回归模型,并将泊松回归模型应用于兽医流行病领域的一个实例分析,结果分析可知泊松回归模型处理数据的效果比较差。第三章介绍了ZIP模型和ZINB模型的参数估计方法,并以ZIP模型为例进行了参数估计和Score检验的模拟研究,讨论了几种0比例情况下的模型优劣,发现在数据离散情况较大时ZINB模型比其他模型对0数据估计精度要高,最后应用ZINB模型分析了兽医流行病领域中的粪便虫卵数据,计算得到的Score检验统计量为77.309,说明ZINB模型比负二项回归模型更适合拟合粪便虫卵数据。第四章介绍了Hurdle模型、Hurdle模型的参数估计方法、Hurdle模型的模拟研究以及Hurdle数据删除模型的统计诊断,并将Hurdle-NB模型应用于兽医流行病领域的粪便虫卵数据,统计诊断发现第978号点为强影响点。第五章给出了本文的研究结果。结果表明泊松回归模型、负二项回归模型是模拟计数数据的基础模型,泊松回归模型要求数据期望与方差相等,负二项回归模型适合处理有一定离散程度的计数数据,但当数据中零数据占很大比例时,以上两种模型的拟合效果就很差了,而零膨胀模型和Hurdle模型是处理带有协变量零膨胀数据的有效方法。从兽医流行病领域的实例分析发现,ZINB和Hurdle-NB回归模型对实例分析的效果较好。此外Hurdle模型还可以分析零收缩计数数据,也就是零数据较少的数据。具体应用有待进一步研究。