论文部分内容阅读
数理统计学的任务,归根结底,是研究者通过一组受到随机性干扰的数据,加上主观对这组数据的认识,用适当的统计方法,对所考虑的问题作出统计推断。在传统的参数统计中,人们习惯于首先假设样本数据来自某个分布总体,然后基于这个总体,进行后续的统计推断研究。近二十几年来,随着科学技术及社会生产力的飞速发展,人们所面对的世界越来越复杂化;作为统计研究者,我们所面临的数据同样越来越复杂。鉴于在很多情形下,样本数据情况复杂,不同局部可能有不同的特性,单一的参数分布族无法确切地描述观测数据,人们想到用有限混合分布模型对广泛的随机现象进行统计建模。理论证明,任何有限分布可由等协差阵的Gauss分布的有限混合任意逼近。这为有限混合分布模型的有效性提供了理论基础。通过适当选择分量,它可对异常复杂的分布进行建模。特别是,当观测数据有局部变化,而单一的参数分布族无法确切地描述观测数据时,有限混合分布模型表现出色。与此同时,实践同样证明了有限混合分布模型具有良好的适应性。因而近二十几年来,有限混合分布模型获得了迅速并且深入的发展,广泛应用于社会各领域,尤其是生物学,基因工程,心理学,信息科学,金融保险等领域。它在统计数据分析中扮演着越来越重要的角色。除有限混合分布模型,本文还研究了线性模型。线性模型是数理统计学中发展较早、理论丰富且应用性很强的一个重要分支。在过去几十年中,线性模型不仅在理论研究方面甚为活跃,而且在经济、金融、医药卫生、教育心理等社会各领域的应用也日渐广泛。本文研究了有限混合分布模型和线性模型中的统计推断问题,包括参数估计,估计的算法,假设检验,稳健性等。现将主要内容概述如下:一、在假设检验方面,本文主要研究了正态混合分稚模型的同构性检验问题,也就是说,检验观测数据究竟是来自单一的正态总体,还是混合正态总体。近二十年来该检验问题备受关注。这就是本文的第二章所研究的问题。本文在Chen(2003)的基础上,去掉等方差的条件。首先,通过定义二维欧氏空间中的Lebesgue-Stieltjes测度,将混合正态分布的概率密度函数表示为在此测度上的L-S积分,由此得到了在新参数下模型的可识别性;接着,研究了参数的极大似然估计在原假设成立,即单一正态总体时的大样本性质,得到了其相合性;最后,研究似然比的大样本性质,证明了在原假设成立,即单一正态总体时,混合正态分布模型的似然比检验统计量渐近地服从均值0,方差1的两参数截尾高斯过程的平方的上确界与自由度为2的卡方分布的最大值。二、在参数估计方面,本文以混合转移分布模型作为基本模型。混合转移分布模型,又称高阶可和马尔可夫链,简单来说,就是高阶马尔可夫链的不同滞后对目前时刻的影响是可分并且可和的。高阶马尔可夫链的一个很大的困扰是,当阶数l和有限维状态空间x中元素的个数m增加时,待估的独立参数的个数呈指数级增长,给统计推断带来了极大的困难。正是在这种困扰中,Raftery(1985)第一次使用混合转移分布模型来近似时齐高阶马尔可夫链。与高阶马尔可夫链的完全参数模型相比,混合转移分布模型拥有少得多的参数。故其具有简单,易于分析、模拟、估计等优点。值得注意的是,它同时也是有限混合分布模型,所以它还表现出善于描述随机变量在非单一模型中广泛的非标准行为,如非高斯性及非线性等特征。因此,混合转移分布模型自从1985年被引入后,不论在理论上还是在实践中都得到了极大的推广和发展。本文以混合转移分布模型作为基本模型,研究其参数估计问题。1.第三章研究了基于正态分布与广义极值分布的混合转移分布模型的参数估计问题。在混合转移分布模型建模时,着眼于20世纪80年代以来,国际上一连串金融、IT、资本运营等行业危机的爆发,充分考虑到可能引起严重后果的极端事件或小概率事件,利用极值理论方法,有效地对随机序列的最大(小)值的概率分布和数据序列的边际概率分布尾部进行建模,建立了基于高斯分布与广义极值分布的混合转移分布模型:得到了在该模型下,时间序列一阶平稳与k阶平稳的充分必要条件。并推导出在时间序列二阶平稳的条件下,一阶自相关函数与二阶自相关函数的关系式;最后,应用EM算法求出模型中各参数的极大似然估计,给出它们的估计方程。2.第四章研究了基于Weibull分布的混合转移分布模型的参数估计问题。首先给出基于Weibull分布的混合转移分布模型的一阶与k阶平稳的充分必要条件;接着,应用EM算法,得到了参数的极大似然估计及它们的标准误差;然后,应用Bootstrap方法,得到了参数的置信区间;最后,通过模拟与实例分析,说明该模型在分析来自金融、保险等某些厚尾分布的数据时,在参数估计方面的表现优于高斯混合转移分布模型。三、在第三章与第四章我们使用EM算法计算参数的极大似然估计,第五章研究了基于Newton-Raphson算法的Monte Carlo EM加速算法。受Monte Carlo EM算法与EM加速算法启发,本文构造了一种新的EM算法,称为Monte Carlo EM加速算法;证明了该算法在似然函数/后验分布的众数的附近确实具有二次收敛速度,改进了Monte Carlo EM算法的收敛速度;并通过一个数值例子的计算结果说明了该算法的优良性,它兼具实现简单及收敛速度快的特点。四、第六章研究线性模型参数估计的稳健性问题。在一般线性模型中,参数的可估函数的常用估计有广义最小二乘估计,高斯马尔可夫估计,方差的最小范数二次无偏估计等,本文研究了这些估计关于误差分布的稳健性问题。具体地说,就是研究随机误差的最大分布族,使得随机误差项的分布在该范围内变动时,上述估计量仍不失原有的统计优良性。综上所述,本文较为系统、深入地研究了有限混合分布模型和线性模型的统计推断问题,包括混合正态分布模型同构性检验的一般性问题,混合转移分布模型的建立,模型中参数的极大似然估计,置信区间,估计的算法以及线性模型中参数估计的稳健性等。在有限混合分布模型的假设检验方面,比较彻底地解决了两个正态混合分布模型同构性检验的一般性问题,发展了Chen(2003)的结果;在有限混合分布模型建模时,结合实际,提出了基于正态分布与广义极值分布的混合转移分布模型以及基于Weibull分布的混合转移分布模型;在估计的算法方面,改进了Louis(1982)的结果,提出了一种既便于计算,又在后验分布的众数附近具有二次收敛速度的EM算法;在线性模型参数估计的稳健性方面,得到了使得广义最小二乘估计,高斯马尔可夫估计,方差的最小范数二次无偏估计保持原有最优性的随机误差的最大分布族。这些研究成果不仪具有比较深刻的理论意义,还具有较为广泛的应用价值。