线性和广义线性混合模型的混合效应预测与应用

来源 :山东大学 | 被引量 : 0次 | 上传用户:liongliong437
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模抽样调查的目的通常是为大范围的地理区域(如省,市)的各种数值特征提供可靠的估计.由于大范围地理区域由众多小范围区域组成,为了更加有效地规划教育,公共卫生和其他社会服务,以及分配政府资金,越来越需要对较小范围的地理区域进行类似的估计.可是对所有区域进行抽样调查需要花费大量物力和时间,通常导致小区域内的样本数量可能很少甚至为零.此处“小区域”表示的是地理意义上的小范围或人口统计调查中的一个群组,两者由于包含样本量太少而不能得到足够准确的直接估计.这就需要从相关的区域“借力”,利用人口普查数据或行政管理数据等辅助信息,基于假定模型得到间接估计.现在,基于模型的统计方法已经被广泛接受.混合(效应)模型可以灵活地将不同来源的信息组合并对不同误差来源进行解释,因而特别适用于小区域估计.混合效应模型中,利用随机效应来解释不能由辅助信息变量(即固定效应)解释的区域间差异.本文主要讨论了混合效应模型中混合效应的预测问题,全文共分为五章,论文结构如下:论文的第一章首先回顾了小区域估计的背景知识与常用的混合效应模型,包括线性混合模型和广义线性混合模型.接着介绍了经典的混合效应预测方法,即线性混合模型的经验最佳线性无偏预测(Empirical Best Linear Unbiased Predictor,EBLUP)和广义线性混合模型的经验最佳预测(Empirical Best Predictor,EBP).在本章最后部分,介绍了由Jiang等人在文献[59]中提出的针对连续型数据中混合效应模型预测的分类混合模型预测(Classified Mixed Model Prediction,CMMP)方法.CMMP 方法认为在训练集数据群组与新观测数据所属群组之间存在某种匹配关系,通过判别新观测数据所匹配的群组,CMMP方法可以做出更准确的预测.另外,不论两者间是否确实存在匹配关系,CMMP方法都能尝试找到相似的匹配关系从而得到比回归预测方法更佳的预测效果.论文的第二章将Jiang等人适用于连续型观测数据混合效应预测的CMMP方法推广到集群二分类数据中,提出了分类混合逻辑模型预测(Classified Mixed Logistic Model Prediction,CMLMP)方法.相比于传统逻辑回归预测方法和不考虑匹配过程的混合模型预测方法,CMLMP方法通过判别新观测数据所属群组并借用训练集中对应群组的信息,可以显著提高对新观测数据中与混合效应相关的概率预测的准确度.为了进一步提高群组匹配的正确性,接下来通过利用协变量信息,提出了一种新的判别新观测数据匹配群组的策略,从而更加改善了预测效果.此外,针对CMLMP方法的均方预测误差MSPE提出了一种二阶无偏的估计方法,可以用来衡量预测的不确定性.论文给出了CMLMP方法的一致性理论证明并通过数值模拟展示了其在有限样本下的表现.模拟结果显示新提出的CMLMP方法在预测效果上优于传统方法.最后将CMLMP方法应用于实例数据并进行了讨论.论文的第三章提出离散变量最优预测的一个准则,即要求预测值与被预测的离散随机变量拥有相同的取值类型.举例来说,如果需要预测一个二元变量,在使得均方预测误差最小的意义下,常用的最佳预测方法得到的预测为其条件期望,取值通常是介于0到1之间的数值,而实际上希望得到的预测取值应该为0或1.在本章中,将基于该准则的预测方法称为最佳相似预测(Best Look-Alike Prediction,BLAP).对分类响应变量进行预测时,BLAP方法与以均匀分布为先验分布的贝叶斯分类方法类似,但前者在预测过程中不需要先验分布的信息.另外,BLAP方法也可以扩展到其他数据类型,如零膨胀随机变量的情形.接下来,将BLAP方法应用到了小区域估计领域,考虑了具有零膨胀随机效应的Fay-Herriot模型,在对零膨胀随机效应进行预测后得到各小区域混合效应的预测.本章最后通过两个实例数据分析来展示BLAP方法的应用效果.论文的第四章注意到尽管CMMP方法的预测效果明显优于经典回归预测的效果,但是其匹配过程中没有利用到协变量的信息,使得正确判别新观测数据与训练集群组之间匹配关系的概率较低,从而其预测效果与其他混合模型预测方法相比优势不再明显.现在结合协变量信息提出一种新的CMMP方法,提高判别匹配关系的正确率,从而借用更加准确有效的信息,进一步改善CMMP方法的表现.此外,为了衡量CMMP方法的预测不确定性,本章中提出了估计CMMP均方预测误差(Mean Squared Prediction Error,MSPE)的方法,使用该方法可以得到其二阶无偏估计,记为Sumca MSPE.对改进的CMMP方法和Sumca MSPE估计的效果进行了详尽的数值模拟,模拟结果表明新CMMP方法显著改善了预测效果,Sumca MSPE估计也接近于其真实值.随后给出了 Sumca MSPE估计的二阶无偏性的理论证明.最后,将新的CMMP方法与Sumca MSPE估计应用于实例数据.论文的第五章是对本论文的总结与下一步研究工作的展望.
其他文献
自葡人僦居澳门至清前期,明清政府对澳门充分行使主权。同时,粤澳关系也随着明清王朝的更迭和国势的盛衰逐渐发生演变。由于明王期对澳夷的不信任,以致形成时时警惕,“以防为主,以
藏药松生等为鼠李科植物西藏猫乳Rhamnella gilgitica Mansf.et Melch茎的干燥木质部,具有凉血、消肿、抗炎等作用,民间常用来治疗类风湿性关节炎、黄水病、高山多血病等多种
随着企业信息化业务的不断发展,企业数字化高效管理工作的推进是衡量企业发展水平的重要标志之一。如何通过信息化工作将企业固定资产进行数字化管理,成为当前企业和行业迫切
从业主角度出发,以高速公路工程全过程造价管理为依据,建立了涵盖投资决策阶段、设计阶段、招投标阶段、施工阶段和竣工验收阶段的公路工程造价管理绩效评价指标体系,选取了
本文以一家大型国有控股商业银行(以下简称"A行")为例,分析当前我国国有商业银行绩效管理体系中所存在的问题和解决问题的思路。
第一届CONEXPOASIA暨亚洲混凝土世界展览会将于2006年5月15日至5月18日在中国北京举行。本刊在此介绍即将展出的一些机械设备。 The 1st CONEXPOASIA & Asia Concrete World
藏族民居是中国传统民居建筑一部分,是一种特殊的居住空间形式。云南藏区作为四省藏区之一,其藏族民居是整个藏族民居研究的重要组成部分。云南独特的自然地理环境和多民族的
随着环境污染问题的日益加剧,已严重影响人们的正常生活、工作,危害人们的身心健康。研究表明,环境污染问题很大一方面来源于工业污染,工业污染包括很多方面,例如水污染、大
汉中明清时期的城市历史格局构成中,集中形成了四个历史片区。为了保护汉中老城区的历史空间格局,历史片区的保护至关重要。《汉中市城市总体规划(2010—2020)》中明确了四个
美国华裔文学对中国文化的传播作用是毋庸置疑的。本文通过研究美国华裔文学作品中的中国传统文化因素,探索美国华裔作家文学作品中的中国传统文化精神,以给读者或外国人诠释