论文部分内容阅读
近二、三十年来,随着现代科技的发展和大型并行计算机的出现,尤其是Linux微机机群的出现和普及,人们开始对大维海量数据的大规模科学工程计算越来越感兴趣。对于大维海量数据,为了揭示关键变量的内部关系,人们自然想利用参数或非参数回归分析和典型相关分析;为了探索和预报数据的时空变化情况,同时也会采用时间序列分析及神经网络手法;另外,为了减小计算机时及内存消耗,在最短时间内完成海量数据可视化,也会用到主成份分析和因子分析。然而,在处理大维数据时,许多经典的统计方法都不适用了,有的甚至会导致严重的误差。我们应该发展和运用新的方法来处理大维数据相关问题,如中长期天气预报、航探数据可视化、地震数据处理、航天飞行器数值化等。以上诸多方面在做估计和假设检验过程中,无不用到大维随机矩阵的处理,尤其是大维样本协方差矩阵的相关性质,因为多元分析中许多重要的统计量都可以表示成样本协方差矩阵的函数。但是由于经典的大样本理论都是假定维数很小是固定的,故而经典极限理论并不适宜解决大维随机数据问题,很多多元问题的模型参数估计、模型检验的统计量已有的结果对大维海量数据并不能平凡推广。因此大维随机矩阵理论,尤其协方差矩阵相关性质的研究就成为非常重要且迫切需要解决的课题。在大维海量数据处理中,大维随机矩阵的谱分析非常关键也很重要。在找到大维随机矩阵经验谱分布Fn(x)的极限谱分布F(x)后,相应的线性谱统计量∫f(x)dFn(x)的极限形式可以容易得到,为了更进一步的统计推断,求出大维随机矩阵线性谱统计量的极限分布是非常关键的。关于经验谱分布收敛到极限谱分布的收敛速度问题,一般的猜想是O(n-1)。如果真是这样,我们考虑经验过程Gn(x)=n[Fn(x)-F(x)]的渐近性质似乎是自然的。但不幸的是,大量证据显示经验过程Gn(x)在任何度量空间中都不收敛。自然,退一步地,我们转向寻找经验过程Gn(x)的线性谱统计量Gn(f)=∫f(x)dGn(x)的极限分布。本文主要运用Bernstein多项式逼近、Stieltjes变换方法以及鞅的中心极限定理等手法。在适当的矩条件下,当核函数f(x)属于C4时,我们证明了大维随机协方差矩阵的线性谱统计量的中心极限定理。基于这类谱统计量的极限分布,我们可以做更有效的统计推断,如假设检验、构造置信区间、置信区域等。具我们结果中核函数的限制的改进准则,可以对大维样本协方差矩阵的经验谱分布的渐近性质有一个更进一步的理解。