有限混合分布模型与线性模型的估计和检验问题

来源 :华东师范大学 | 被引量 : 0次 | 上传用户:shenjing1566
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数理统计学的任务,归根结底,是研究者通过一组受到随机性干扰的数据,加上主观对这组数据的认识,用适当的统计方法,对所考虑的问题作出统计推断。在传统的参数统计中,人们习惯于首先假设样本数据来自某个分布总体,然后基于这个总体,进行后续的统计推断研究。近二十几年来,随着科学技术及社会生产力的飞速发展,人们所面对的世界越来越复杂化;作为统计研究者,我们所面临的数据同样越来越复杂。鉴于在很多情形下,样本数据情况复杂,不同局部可能有不同的特性,单一的参数分布族无法确切地描述观测数据,人们想到用有限混合分布模型对广泛的随机现象进行统计建模。理论证明,任何有限分布可由等协差阵的Gauss分布的有限混合任意逼近。这为有限混合分布模型的有效性提供了理论基础。通过适当选择分量,它可对异常复杂的分布进行建模。特别是,当观测数据有局部变化,而单一的参数分布族无法确切地描述观测数据时,有限混合分布模型表现出色。与此同时,实践同样证明了有限混合分布模型具有良好的适应性。因而近二十几年来,有限混合分布模型获得了迅速并且深入的发展,广泛应用于社会各领域,尤其是生物学,基因工程,心理学,信息科学,金融保险等领域。它在统计数据分析中扮演着越来越重要的角色。除有限混合分布模型,本文还研究了线性模型。线性模型是数理统计学中发展较早、理论丰富且应用性很强的一个重要分支。在过去几十年中,线性模型不仅在理论研究方面甚为活跃,而且在经济、金融、医药卫生、教育心理等社会各领域的应用也日渐广泛。本文研究了有限混合分布模型和线性模型中的统计推断问题,包括参数估计,估计的算法,假设检验,稳健性等。现将主要内容概述如下:一、在假设检验方面,本文主要研究了正态混合分稚模型的同构性检验问题,也就是说,检验观测数据究竟是来自单一的正态总体,还是混合正态总体。近二十年来该检验问题备受关注。这就是本文的第二章所研究的问题。本文在Chen(2003)的基础上,去掉等方差的条件。首先,通过定义二维欧氏空间中的Lebesgue-Stieltjes测度,将混合正态分布的概率密度函数表示为在此测度上的L-S积分,由此得到了在新参数下模型的可识别性;接着,研究了参数的极大似然估计在原假设成立,即单一正态总体时的大样本性质,得到了其相合性;最后,研究似然比的大样本性质,证明了在原假设成立,即单一正态总体时,混合正态分布模型的似然比检验统计量渐近地服从均值0,方差1的两参数截尾高斯过程的平方的上确界与自由度为2的卡方分布的最大值。二、在参数估计方面,本文以混合转移分布模型作为基本模型。混合转移分布模型,又称高阶可和马尔可夫链,简单来说,就是高阶马尔可夫链的不同滞后对目前时刻的影响是可分并且可和的。高阶马尔可夫链的一个很大的困扰是,当阶数l和有限维状态空间x中元素的个数m增加时,待估的独立参数的个数呈指数级增长,给统计推断带来了极大的困难。正是在这种困扰中,Raftery(1985)第一次使用混合转移分布模型来近似时齐高阶马尔可夫链。与高阶马尔可夫链的完全参数模型相比,混合转移分布模型拥有少得多的参数。故其具有简单,易于分析、模拟、估计等优点。值得注意的是,它同时也是有限混合分布模型,所以它还表现出善于描述随机变量在非单一模型中广泛的非标准行为,如非高斯性及非线性等特征。因此,混合转移分布模型自从1985年被引入后,不论在理论上还是在实践中都得到了极大的推广和发展。本文以混合转移分布模型作为基本模型,研究其参数估计问题。1.第三章研究了基于正态分布与广义极值分布的混合转移分布模型的参数估计问题。在混合转移分布模型建模时,着眼于20世纪80年代以来,国际上一连串金融、IT、资本运营等行业危机的爆发,充分考虑到可能引起严重后果的极端事件或小概率事件,利用极值理论方法,有效地对随机序列的最大(小)值的概率分布和数据序列的边际概率分布尾部进行建模,建立了基于高斯分布与广义极值分布的混合转移分布模型:得到了在该模型下,时间序列一阶平稳与k阶平稳的充分必要条件。并推导出在时间序列二阶平稳的条件下,一阶自相关函数与二阶自相关函数的关系式;最后,应用EM算法求出模型中各参数的极大似然估计,给出它们的估计方程。2.第四章研究了基于Weibull分布的混合转移分布模型的参数估计问题。首先给出基于Weibull分布的混合转移分布模型的一阶与k阶平稳的充分必要条件;接着,应用EM算法,得到了参数的极大似然估计及它们的标准误差;然后,应用Bootstrap方法,得到了参数的置信区间;最后,通过模拟与实例分析,说明该模型在分析来自金融、保险等某些厚尾分布的数据时,在参数估计方面的表现优于高斯混合转移分布模型。三、在第三章与第四章我们使用EM算法计算参数的极大似然估计,第五章研究了基于Newton-Raphson算法的Monte Carlo EM加速算法。受Monte Carlo EM算法与EM加速算法启发,本文构造了一种新的EM算法,称为Monte Carlo EM加速算法;证明了该算法在似然函数/后验分布的众数的附近确实具有二次收敛速度,改进了Monte Carlo EM算法的收敛速度;并通过一个数值例子的计算结果说明了该算法的优良性,它兼具实现简单及收敛速度快的特点。四、第六章研究线性模型参数估计的稳健性问题。在一般线性模型中,参数的可估函数的常用估计有广义最小二乘估计,高斯马尔可夫估计,方差的最小范数二次无偏估计等,本文研究了这些估计关于误差分布的稳健性问题。具体地说,就是研究随机误差的最大分布族,使得随机误差项的分布在该范围内变动时,上述估计量仍不失原有的统计优良性。综上所述,本文较为系统、深入地研究了有限混合分布模型和线性模型的统计推断问题,包括混合正态分布模型同构性检验的一般性问题,混合转移分布模型的建立,模型中参数的极大似然估计,置信区间,估计的算法以及线性模型中参数估计的稳健性等。在有限混合分布模型的假设检验方面,比较彻底地解决了两个正态混合分布模型同构性检验的一般性问题,发展了Chen(2003)的结果;在有限混合分布模型建模时,结合实际,提出了基于正态分布与广义极值分布的混合转移分布模型以及基于Weibull分布的混合转移分布模型;在估计的算法方面,改进了Louis(1982)的结果,提出了一种既便于计算,又在后验分布的众数附近具有二次收敛速度的EM算法;在线性模型参数估计的稳健性方面,得到了使得广义最小二乘估计,高斯马尔可夫估计,方差的最小范数二次无偏估计保持原有最优性的随机误差的最大分布族。这些研究成果不仪具有比较深刻的理论意义,还具有较为广泛的应用价值。
其他文献
在以网络化、信息化、数字化为特色的新时代背景下,文化创意产业已经进入了跨学科融合的新时代,面临着较大的市场机遇与挑战。文化创意产业的核心是创意和文化价值。视觉传达
京津冀地区是中国三大区域经济(珠三角、长三角、京津冀)发展不平衡最显著的区域。基于泰尔指数方法,分别对京津冀区域经济的国内生产总值、人均国内生产总值、一般公共预算人
7月13日,国网浙江省电力公司成立“大云物移”新技术应用研究基地。研究基地将作为国网浙江电力“大云物移”行动计划重要支撑机构,开展新技术前瞻研究,统筹规划新技术应用,并对
报纸
随着经济全球化的加速,企业迎来了人力资源激烈竞争的时代。保持人力资源竞争的优势,最关键的因素就是人。而员工工作效率的高低在很大程度上取决于企业的激励机制是否健全和
书法是民族文化价值、实用价值和艺术审美价值的统一体现,由此构成了书法教育推进中华优秀传统文化传承弘扬的目标导向与新时代使命。人民是书法和民族传统文化的创造者,因此
目的:研究一种原位、实时测定阿司匹林肠溶片体外释放度的测定方法。方法:采用光纤药物溶出度实时测定仪测定阿司匹林肠溶片,并与国家药品标准的测定结果进行比较。结果:光纤
目的:调查父亲参与教养程度和小学生学习自我效能感状况,并探究二者之间的关系。方法:采用父亲参与教养问卷和学习自我效能感问卷对376名4~6年级小学生进行了调查,并进行数理
目的:比较耳尖前、耳尖上、耳尖后单孔钻孔冲洗引流术治疗慢性硬膜下血肿的临床疗效。方法:选取2016-02~2019-10我院神经内科收治的慢性硬膜下血肿患者60例为研究对象,随机分
智库是国家软实力的重要组成部分,在谋划国家战略、建言国家决策和监督国家治理等方面意义重大。当前,中国特色新型智库建设已上升到国家事业发展全局的战略高度,是国家治理
完善和先进的实验室体制是实现实验室人才的培养、资源的优化配置、提高教学和科研水平的重要保障。针对目前高校实验室存在的问题,本文结合本校实验室现状,分别从实验室的管