论文部分内容阅读
广义岭估计是Horel和Kennard(1970)提出的一种新型的多元分析方法,近几十年来,它在理论和应用方面都以得到迅速的发展。和岭估计以及偏最小二乘估计一样,广义岭估计主要适用处理病态设计矩阵,并可以有效的解决普通多元线性回归无法解决的问题,如样本个数小于自变量的个数。但计算逆矩阵和岭脊的选择是广义岭估计的两个难点。 在许多实际问题中,特别在化学和生物的试验问题中,拟合线性模型的数据中的未知参数p的个数远远大于样本量,此时设计矩阵Xnxp列向量有共线性,因为试验或生产过程已经完结或经费限制等原因,样本量n可能小到100,或更少,这样导致了一种特殊的降秩矩阵。Hawkins和Yin(Comput.Statist.Data Anal.40(2002)253)中提出针对这样的降阶数据Xnxp(n<p)一种岭回归的快速迭代算法。 本文在Hawkins和Yin文章的基础上,针对特殊的降秩矩阵Xnxp(n<p),利用矩阵论的知识,提出了一种O(np2)广义岭估计的迭代算法.介绍了广义岭估计的性质和有偏估计的理论知识,讨论了它们之间的相互区别,主要在文献[4]的基础上,提出和证明了广义岭估计在均方误差的准则下优于最小二乘估计的充分条件。同时设计了两种搜索岭脊的方法。当P较大时,此算法非常节省计算量,不仅直观,简单,适用于加权情况,而且便于计算其残差平方和、回归系数的标准误、回归系数的方差和残差的估计。 用MATLAB7.0编程开发了试验数据模拟的界面和有偏估计回归比较界面。此界面不仅可以进行较大规模的试验模拟,而且对于同样的数据进行不同的回归方法的拟合,以及对于同一种估计用不同的计算方法进行回归计算,在运算速度,MSE,复相关系数,残差平方和以及预测平方和等方面进行可视化的比较。 进一步开发了大样本模拟的界面,同时对最小二乘估计和岭估计、迭代岭估计、偏最小二乘估计、广义岭估计,迭代广义岭估计进行大样本试验。为今后理论研究提供了有力的试验平台和证据。