论文部分内容阅读
实际问题中,经常需要处理计数型随机数据,为揭示计数型响应变量与一族协变量之间的内在联系,必须研究计数回归模型。基本的计数回归模型是Poisson回归模型。由于计数数据的复杂性,数据与基本的计数回归模型常常不相吻合,经常出现过大离差(over-dispersion)或过小离差(under-dispersion)等情形,因而直接利用基本的计数型回归模型进行数据分析时,分析结果不尽如人意。比如Poisson模型假设均值和方差相等,在实际数据中,很难达到这一点,常出现方差大于均值的情况,利用Poisson回归模型拟合数据可能会出现较大的偏差,因此常常使用负二项回归模型,它是Poisson回归模型的推广,可以很好的解决过大离差问题,此模型已成功应用于多个领域,如生物统计、计量经济学、兽医流行病学等。对于负二项回归模型,为了进行有效的统计推断,需要检测已知观测数据用既定模型拟合的合理性,统计诊断是数据分析的重要组成部分,是识别数据集中异常点和强影响点的重要方法。自从Cook提出回归模型的统计诊断分析方法以来,由于这一方法简单易行,且被实践证明非常有效,深受国内外统计学者关注,已成功地将统计诊断和影响分析方法推广至各种回归模型,包括计数回归模型,如Poisson回归、负二项回归模型、Poisson-逆高斯混合模型等。本文将系统研究负二项回归模型,包括NB-1回归模型、NB-2回归模型、NB-P回归模型、NB-H回归模型、NB-C回归模型。首先在Poisson模型基础上,引入3amma分布作为先验分布,推导出两参数和三参数的Poisson-Gamma混合模型,即NB-1、NB-2、NB-P模型,对上述三个模型进行数值模拟,利用德国经济社会的统计数据作实例分析。其次,NB-H和NB-C模型作为负二项回归模型的推广,在国内外文献中很少被研究,因此本文也对这两个模型进行了数值模拟,然后利用德国经济社会的统计数据实例分析。在对上述几个模型分析研究之后,然后讨论模型的拟合优度,可以使用AIC统计量和BIC统计量比较模型的拟合效果,选出相对比较好的模型,通过AIC统计量和BIC统计量比较几个模型之后发现NB-P模型的拟合效果最好。最后重点讨论NB-2和NB-P回归模型基于数据删除模型的统计诊断,通过MATLAB作出NB-2和NB-P回归模型广义Cook距离、离差参数α的Cook距离、参数P的Cook距离的诊断图,找出强影响点。