论文部分内容阅读
在统计推断中,如何利用样本数据对总体目标变量进行有效的估计是非常普遍的研究问题,这类问题在实践应用中也很常见,其估计方法具有广泛的应用需求。基于抽样设计的直接估计方法是解决这类问题最直接的思路。然而,当估计总体区域由众多的小域构成时,估计小域上的目标变量时会面临小样本乃至无样本的情形。在这种情形下,利用样本的直接估计方法可能会产生较大的误差或无法得到有效估计。而小域估计方法则是解决这类问题的有效方法之一。相较于传统抽样估计方法,小域估计方法借助于辅助变量的信息能够得到小区域上目标变量的有效估计,能够解决小样本和无样本情形下的估计问题。近年来,小域估计方法在人口统计、生物统计、农业统计和政府统计等领域应用非常广泛,相关的学术研究也较为丰富,使小域估计的理论得到了系统发展。基于模型的小域估计方法作为小域估计的主要方法,是小域估计的核心内容。基于模型的估计方法能够很好地将辅助变量应用于估计模型,从而达到“借力”的作用,以此来解决小样本和无样本问题。在小域估计的模型中,通常假设区域随机效应和模型随机误差均服从正态分布。但实践证明,当存在异常观测值时,基于正态分布假设的小域模型假设失效,这会导致参数估计和目标变量估计产生较大的偏差。因此,需要探究对异常观测值不敏感的稳健估计方法。在小域稳健估计中,目前应用较为广泛的方法有两类。一类方法为假设模型误差为有偏分布的估计方法,例如假设模型误差服从t分布或柯西分布,通过有偏分布建模来减小异常观测值对估计量的影响;另一类方法为利用Huber?函数对经验线性无偏估计量进行稳健化处理,通过Huber?函数的优良性质来达到稳健性的目的。虽然这两类方法在大多数情况下能有效降低异常观测值对估计量的影响,但当异常值过大时,其估计效果将受到限制,估计结果仍然会存在较大的偏差。因此,在实际应用中需要针对具体情况选择恰当的小域稳健估计方法进行估计。研究稳健小域估计方法,是当前小域估计中非常现实的问题。由于非正态性观测数据的普遍存在以及异常值的出现,对小域估计方法提出了新的挑战。为了解决该情形下估计量不稳定以及预测值的大偏差问题,稳健小域估计方法被众多学者所关注到。本研究考虑到密度幂散度族在稳健估计中的重要特性,将其应用到小域估计中,提出基于密度幂散度族的稳健估计方法,以弥补现有稳健小域估计的不足。通过将密度幂散度族应用于小域估计中,探究非正态以及具有异常观测情形下小域模型系数和目标变量的估计问题。在本研究中,旨在构建小域模型系数、目标变量的稳健估计量,并给出参数的置信区间以及估计量的均方误差。首先,为了解决区域水平模型中的稳健估计问题,探究了密度幂散度和γ散度在FH模型中的应用。通过将密度幂散度应用于FH模型,得到了模型系数的稳健估计和渐进分布。在此基础上,讨论了目标变量的稳健估计量,并给出了估计量的均方误差。为了得到小域估计量的可靠估计,本研究同时给出了其目标变量的置信区间。通过对模拟数据和实际数据建立小域模型,结合本研究提出的稳健估计方法,进行稳健估计,并和现有的稳健估计方法进行了比较。通过比较发现,提出的估计方法能够通过调整参数控制估计的有效性和稳健性之间的平衡。当观测数据中不存在异常值时,本研究提出的估计方法通过使用较小的调整参数和现有的最优线性无偏估计方法得到的稳健估计效果相差不大。在观测数据中存在异常值时,提出的稳健估计方法比起现有的估计方法具有更小的均方误差,说明本研究提出的估计方法是有效的。其次,研究了基于密度幂散度、γ散度的单元水平模型的稳健估计问题。将这两类散度应用于NER模型,对模型的系数进行了稳健估计,得到了模型系数的稳健估计及其渐进分布。在单元水平模型下,讨论了区域上关于目标变量函数形式的稳健估计量以及有限总体的区域均值的稳健估计。由于单元水平模型中关于目标变量的估计中会涉及多重积分的计算,本研究利用MCMC的方法给出了关于目标变量的函数形式的估计值,并结合Bootstrap方法给出了估计量的MSE。同样地,将本研究提出的估计方法和现有的稳健估计方法进行了比较。通过对模拟数据和实际数据的应用发现,本研究提出的估计方法能够提高更加稳健的估计结果。无论是模型系数的估计,还是目标变量的小域估计量,本研究得到的结果均具有更小的偏差和均方误差。为了动态展示本研究提出的估计方法在混合正态分布中的表现,本研究比较了几类估计结果随着污染分布的方差以及污染分布的比例变化时估计的MSE的动态变化图,通过比较图形发现,无论是模型系数还是区域均值,其MSE的变化均不太显著,而现有的稳健估计方法却表现一般,受污染比例和污染方法方差的波动较大。最后,在本研究中提出了用密度幂散度进行稳健估计的参数选择算法。对两类小域估计模型进行稳健估计时,引入的估计方法中存在一个调整参数,该参数能够根据观测数据的特征调节模型估计的有效性和稳健性。一般地,当模型中异常值较小时,可以选取较小的调节参数,而存在较多的异常值时,通过较大的调节参数来达到稳健估计的目的。本研究在调整参数的选取中,引入了一类迭代估计算法,该算法能够根据数据的特点自动选取使其估计MSE最小的调整参数,文中给出了调整参数的选择算法。本研究结合密度幂散度族提出了针对基本小域模型的稳健估计方法。在本研究中,给出了模型参数、目标变量的估计表达式以及区间估计等。通过模拟和实际数据的验证,发现本研究中提出估计方法优于现有的稳健小域估计方法,并对非正态数据和异常观测值均具有较为理想的估计结果,能够解决不满足基本假设的小域估计问题。在实际应用中,本研究中提出的方法也具有较高的可操作性与估计效果,并通过中国家庭调查数据进行了佐证。本研究中提出的方法能够适用于更加广泛的小域估计模型,能够为决策者提供更加可靠的小域估计量。