论文部分内容阅读
近几十年,随着计算机科学技术的飞速发展,大维数据分析在现代科学研究中越来越突显其重要性,比如在生物学的微阵列数据,金融学的股票市场分析,无线通讯网络等新兴领域中,都出现了关于海量数据的统计问题。遗憾的是,经典的统计工具和统计方法却滞后于数据信息的发展,不能简单同步地应用于大维数据分析中.其根本因为是经典的统计极限理论建立在样本量n远远大于变量维数p的假设下,而当维数相对于样本量很大时,经典的极限理论结果不再适用.为了弥补由于维数升高而产生的理论缺失,本篇论文提出了一些新的统计方法来解决这些大维数据的统计问题,这些统计方法基于维数p和样本量n同时趋于无穷的理论假设.
在本文中,我们就多元统计分析中的两个典型问题展开讨论:一是协方差矩阵,二是均值向量.首先,我们通过随机矩阵理论解释了为什么当维数相对于样本量很大时,经典的关于正态总体的协方差矩阵和均值向量的似然比检验会失效。其次,运用大维样本协方差矩阵和大维随机F矩阵的线性谱统计量的中心极限定理,我们提出了经典似然比检验的一些有效的修正,以削弱大维数的效应.我们修正的经典似然比检验包括:检验协方差矩阵等于某个给定的非随机矩阵;检验两个协方差矩阵的相等;检验线性回归模型中的回归系数;检验同协方差矩阵的多个总体的均值相等.进一步,我们又以检验两个协方差矩阵的相等为例,说明了我们所提出的修正的检验方法对于非正态总体也适用,可以看做是个广义的修正似然比检验。同时,文中给出了这些修正似然比检验在原假设下的近似分布,并做了相应的模拟试验.通过模拟结果我们看到,无论是适中维数的情况(比如p=20)亦或较大维数的情况,当经典似然比检验已经完全失效时,修正似然比检验模拟计算的第一类误差仍十分接近于设置的检验水平,这说明尽管大维修正似然比检验方法构建于样本量和维数同时趋于无穷的理论假设之上,但是这些修正的检验方法对于维数p具有稳健性,在实际中具有很强的可行性.