论文部分内容阅读
大规模抽样调查的目的通常是为大范围的地理区域(如省,市)的各种数值特征提供可靠的估计.由于大范围地理区域由众多小范围区域组成,为了更加有效地规划教育,公共卫生和其他社会服务,以及分配政府资金,越来越需要对较小范围的地理区域进行类似的估计.可是对所有区域进行抽样调查需要花费大量物力和时间,通常导致小区域内的样本数量可能很少甚至为零.此处“小区域”表示的是地理意义上的小范围或人口统计调查中的一个群组,两者由于包含样本量太少而不能得到足够准确的直接估计.这就需要从相关的区域“借力”,利用人口普查数据或行政管理数据等辅助信息,基于假定模型得到间接估计.现在,基于模型的统计方法已经被广泛接受.混合(效应)模型可以灵活地将不同来源的信息组合并对不同误差来源进行解释,因而特别适用于小区域估计.混合效应模型中,利用随机效应来解释不能由辅助信息变量(即固定效应)解释的区域间差异.本文主要讨论了混合效应模型中混合效应的预测问题,全文共分为五章,论文结构如下:论文的第一章首先回顾了小区域估计的背景知识与常用的混合效应模型,包括线性混合模型和广义线性混合模型.接着介绍了经典的混合效应预测方法,即线性混合模型的经验最佳线性无偏预测(Empirical Best Linear Unbiased Predictor,EBLUP)和广义线性混合模型的经验最佳预测(Empirical Best Predictor,EBP).在本章最后部分,介绍了由Jiang等人在文献[59]中提出的针对连续型数据中混合效应模型预测的分类混合模型预测(Classified Mixed Model Prediction,CMMP)方法.CMMP 方法认为在训练集数据群组与新观测数据所属群组之间存在某种匹配关系,通过判别新观测数据所匹配的群组,CMMP方法可以做出更准确的预测.另外,不论两者间是否确实存在匹配关系,CMMP方法都能尝试找到相似的匹配关系从而得到比回归预测方法更佳的预测效果.论文的第二章将Jiang等人适用于连续型观测数据混合效应预测的CMMP方法推广到集群二分类数据中,提出了分类混合逻辑模型预测(Classified Mixed Logistic Model Prediction,CMLMP)方法.相比于传统逻辑回归预测方法和不考虑匹配过程的混合模型预测方法,CMLMP方法通过判别新观测数据所属群组并借用训练集中对应群组的信息,可以显著提高对新观测数据中与混合效应相关的概率预测的准确度.为了进一步提高群组匹配的正确性,接下来通过利用协变量信息,提出了一种新的判别新观测数据匹配群组的策略,从而更加改善了预测效果.此外,针对CMLMP方法的均方预测误差MSPE提出了一种二阶无偏的估计方法,可以用来衡量预测的不确定性.论文给出了CMLMP方法的一致性理论证明并通过数值模拟展示了其在有限样本下的表现.模拟结果显示新提出的CMLMP方法在预测效果上优于传统方法.最后将CMLMP方法应用于实例数据并进行了讨论.论文的第三章提出离散变量最优预测的一个准则,即要求预测值与被预测的离散随机变量拥有相同的取值类型.举例来说,如果需要预测一个二元变量,在使得均方预测误差最小的意义下,常用的最佳预测方法得到的预测为其条件期望,取值通常是介于0到1之间的数值,而实际上希望得到的预测取值应该为0或1.在本章中,将基于该准则的预测方法称为最佳相似预测(Best Look-Alike Prediction,BLAP).对分类响应变量进行预测时,BLAP方法与以均匀分布为先验分布的贝叶斯分类方法类似,但前者在预测过程中不需要先验分布的信息.另外,BLAP方法也可以扩展到其他数据类型,如零膨胀随机变量的情形.接下来,将BLAP方法应用到了小区域估计领域,考虑了具有零膨胀随机效应的Fay-Herriot模型,在对零膨胀随机效应进行预测后得到各小区域混合效应的预测.本章最后通过两个实例数据分析来展示BLAP方法的应用效果.论文的第四章注意到尽管CMMP方法的预测效果明显优于经典回归预测的效果,但是其匹配过程中没有利用到协变量的信息,使得正确判别新观测数据与训练集群组之间匹配关系的概率较低,从而其预测效果与其他混合模型预测方法相比优势不再明显.现在结合协变量信息提出一种新的CMMP方法,提高判别匹配关系的正确率,从而借用更加准确有效的信息,进一步改善CMMP方法的表现.此外,为了衡量CMMP方法的预测不确定性,本章中提出了估计CMMP均方预测误差(Mean Squared Prediction Error,MSPE)的方法,使用该方法可以得到其二阶无偏估计,记为Sumca MSPE.对改进的CMMP方法和Sumca MSPE估计的效果进行了详尽的数值模拟,模拟结果表明新CMMP方法显著改善了预测效果,Sumca MSPE估计也接近于其真实值.随后给出了 Sumca MSPE估计的二阶无偏性的理论证明.最后,将新的CMMP方法与Sumca MSPE估计应用于实例数据.论文的第五章是对本论文的总结与下一步研究工作的展望.