GEE框架下纵向数据均值-方差联合模型的研究

来源 :云南财经大学 | 被引量 : 0次 | 上传用户:wangql133
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
纵向数据是由多个体在不同的时间点或者空间点处的若干次观测的数据构成,这类数据的一个很重要的特点是个体间的观测值通常是独立的,但是每个个体的观察值具有较高的相关性。因此对纵向数据的建模要充分考虑个体内观测值的相关性。传统的关于纵向数据的分析方法,主要是在一定分布假定下对响应变量的均值进行建模,而对协方差结构做一些设定(即协方差结构是已知的,只是其中的参数未知)。这种建模的方法的优点是简单方便,但局限性是很难去验证实际数据与假定分布之间的一致性,并且当协方差结构错误设定时,会大大降低统计推断的有效性,比如会降低均值参数估计的有效性等。因此,如何在放松分布假定的情形下,对纵向数据的均值和协方差建立联合模型进行分析是一个重要和有挑战性的问题。目前在放松个体分布的假定下,对纵向数据建立均值-方差联合模型,主要采用对协方差矩阵进行不同形式的分解,同时构建均值-方差联合广义估计方程(Generalized estimating equations,GEE)进行的。采用GEE方法的优势是仅需对个体分布的低阶矩进行假定,而不需要对个体分布做任何形式上的假定,因而大大拓宽了模型的适用范围。在GEE框架下联合模型的实际应用中,如何快速有效地筛选出对模型有较大影响的自变量具有重要的意义,但是目前对GEE框架下的联合模型开发算法上易于执行并兼具oracle性质的变量选择方法研究较少。当纵向数据的联合模型确定后,判断给定联合模型的合理性以及克服实际数据与给定模型之间可能存在偏离的情况就成为另一个亟待解决的问题。通过统计诊断和稳健统计的方法可以有效解决这些问题。为此,本文主要在GEE框架下,研究了纵向数据均值-方差联合建模的变量选择、统计诊断以及稳健的联合建模这三个重要的问题。首先,提出了协方差矩阵进行修正的乔利斯基分解(Modified Cholesky decomposition,MCD)下的光滑阈值的联合广义估计方程。该光滑阈值的联合广义估计方程能够自动将无关变量的系数估计为零,因而能够同时进行变量选择和参数估计。在对该光滑阈值的联合广义估计方程的求解过程中,提出采用三个带惩罚的加权偏差准则去选取模型中的最优的调节参数并采用牛顿-辛普森算法迭代求得该方程具有稀疏性的解。在一定的正则条件下,我们研究了该光滑阈值的联合广义估计方程的解的相合性以及渐近正态的性质,同时探讨这种方法在变量选择方面的oracle性质。这个光滑阈值的联合估计方程避免了传统的对广义估计方程直接添加惩罚项进行变量选择所带来的凸优化问题并且具有算法上易于执行的优点。模拟研究和实际数据分析均展示了我们给出了光滑阈值联合广义估计方程在参数估计和变量选择方面的优良表现。其次,基于协方差矩阵进行MCD,讨论了均值-方差联合广义估计方程的统计诊断方法。我们主要采用的个体数据删除方式的“点删除”影响分析法,去探测实际数据中的异常点和强影响点。我们首先分别导出均值参数和协方差参数(自回归参数以及革新方差参数)的一步近似诊断统计量,用来近似计算个体数据删除前后估计量的改变量。然后引入伪费希尔信息矩阵作为权重矩阵构建相关参数的广义Cook距离诊断统计量。我们提出的关于全参数的广义Cook距离可以直接分解为关于均值参数、自回归参数以及革新方差参数的诊断统计量,方便我们对这三组参数进行统计诊断分析。最后,随机模拟和实际数据分析,显示了我们提出的诊断统计量能够快速以及有效的识别数据中的影响点。最后,在误差向量满足ARMA(Autoregressive moving average)过程下构建了稳健的均值-方差联合估计方程。该稳健估计方程将皮尔逊残差运用到有界的得分函数上去降低异常响应变量的影响,同时引入了Mallows类型的权重去降低杠杆点的影响。在一定的正则条件下,我们探讨了模型参数估计的相合性以及渐近正态的性质。在无污染数据和包含各种类型的污染数据的模拟实验和实际数据分析中,充分展示了无论数据来源于什么分布以及无论数据是否存在污染,我们提出的稳健的联合模型均有不错的表现。特别地,当数据存在污染数据的时候,稳健的联合模型在参数估计方面的表现要优于非稳健联合模型。本文的主要贡献有以下三个方面:(1)提出了光滑阈值联合广义估计方程。该模型有效地解决了纵向数据GEE框架下联合建模的参数估计和变量选择问题,并且具算法上易于执行的优点。(2)建立了GEE框架下联合模型的广义Cook诊断统计量。提出的诊断统计量能够快速有效的识别出实际数据中的异常点或者强影响点,为我们进一步进行统计分析提供了帮助。(3)在协方差矩阵更为一般化的分解下,提出了均值-方差稳健的联合模型。该模型很好的克服了实际数据中的异常数据或者强影响数据对模型统计推断的影响。这些在放松个体分布假定下对纵向均值-方差联合模型的研究,不论在理论还是实际纵向数据分析中均具有重要作用。
其他文献
中国古代造物空间,谈论的是中国古人通过物品传递精神和思想的空间。造物艺术,是关于物品的艺术。在中国古代,造物艺术的空间形态可与古人看待事物的方式联系在一起。古人眼
分支定界算法作为一种典型的确定性全局优化方法,通常能够对一些非凸规划问题进行全局寻优.针对二次约束二次规划和分式规划这两类非凸问题,本文提出了相应的分支定界算法.具体工作介绍如下:针对二次约束二次规划,提出了两种分支定界算法.第一种参数化线性松弛分支定界算法通过引入参数,且参数固定为0或1,在有界闭区间上对双线性函数进行重构,并利用重构函数的解析性质,得到基于参数的线性松弛技术.算法中的分支操作使
学位
科学技术的发达使得网络消费成为众多群体购物的渠道之一。从衣食到住行,网络给用户带来了方便和快捷。已使用过商品用户发出的新信息是未使用过用户选择商品、消费商品的参考。商家在此基础付费刷单,导致负面影响。其一是造成信息过载,由于个体认知水平和任务处理能力不一致,有些消费者难以处理过量信息,产生厌倦心理;其二是造成高期望,期望理论表明消费者在购物之前会产生对产品的原始期望值,而大量正面评价会提高该期望值
学位
非线性偏微分方程在数学、物理科学和工程计算等领域中有着较为广泛的应用,许多物理现象及问题都可以用偏微分方程来描述.近些年来,发展起来一种新兴的、广泛应用于较多领域的、用于求解多种偏微分方程的数值方法,即格子Boltzmann方法.本文将格子Boltzmann方法分别应用在时间导数为一阶和二阶的非线性偏微分方程中,并通过数值模拟,证实了模型的适用性及有效性,主要工作内容如下:(1)对于一类一维五阶非
学位
教材在英语教学中起着至关重要的作用,阅读文本是教材的主体部分,也是教学过程中的核心部分。本研究基于语料库对初中英语教材阅读文本难度进行计量研究,对比不同版本教材文本难度的差异,并检验各年级之间是否遵循由易到难、循序渐进的规律。研究旨在帮助教师灵活运用教材,同时为教材编写者在教材文本难度量化标准的研发上提供参考。本研究选取当前我国广泛使用的八版初中英语教材,从平均词长和生词率以及平均句长和复合句频率
学位
Artifacts,暂且将其译为“人造物”,它由arti-和fact组成,“arti-”暗示经历手的加工改造(artificial,有“人造的”、“人工的”之意),“fact”是人所能感知的事实(包含了触
在银行发展过程中,银行卡业务发挥着重要作用,因此,各大商业银行都非常重视该项任务的发展。FM农信社是一家地方性金融机构,其秉承的发展理念是“服务三农、服务城乡社区”,充分发挥自身服务网点数量多、覆盖面积广、服务农村经济发展的优势,积极承担推动社会经济发展的责任。近几年,增强了贷记卡服务的推广力度,积极支持地方经济发展。FM农信社发展过程中,随着发卡数量的持续增加,贷记卡业务出现很多问题,对其整体发
学位
断奶仔猪又叫保育猪,是指一类处于特殊生长阶段的猪只,养殖上一般以仔猪体重达到23 kg为标志。断奶仔猪的饲养管理和疾病防控关键在于增强体质,减少外界环境变化带来的不利影响。育肥猪抗病能力远大于断奶仔猪,后者在兽医临床上常因各类应激反应出现疾病,严重制约生长速度和经济效益。长期以来,抗生素是断奶仔猪疾病的临床常用药,对缓解疾病症状、改善生长性能具有不错的效果,但随着兽用抗生素在全球范围内被限制使用,
在现当代版画史研究叙事中,“四川版画”作为一种群体艺术现象或是“画派”“流派”已成为既成概念。然而这一概念仍有很多模糊之处,本文将它的成型发展过程限定于其发展最为
进入21世纪以后,科学技术迅猛发展,社会进入了新媒体加速发展时代,信息传播方式也发生着巨大变化,以微信、微博和主题网站为代表的新媒体已经成为宁夏高校大学生获取信息的重要手段,深深地影响着宁夏高校大学生的生活方式、学习方式、思维方式。2014年以来,习近平总书记多次在中央民族工作会议中提到“铸牢中华民族共同体意识”,掀起了学术界一场新的学术浪潮。铸牢中华民族民族共同体意识,是我们党和国家在新时期处理
学位