论文部分内容阅读
摘要: 研究多重共线性严重,尤其解释变量个数多、样本量少数据资料的一种新的稳健统计分析方法[2]:偏最小二乘(partial least square, PLS)。采用实证方式比较PLS与一般最小二乘(ordinary least square, OLS)回归及主成分(Principle Component,PC)回归的优劣。实例分析表明,PLS对数据的拟合度和预测精度均优于另两个常用于处理多重共线性的统计方法:OLS回归和PC回归。PLS是一种数据“软”建模的稳健统计方法它无需剔除任何解释变量或样本点,具有简单稳健、易于定性解释、预测精度较高等优点,通常用于数据探索性分析,或者处理多重共线性严重资料,尤其当解释变量个数多、样本量少时很有效;其缺点主要是无法对解释变量与反应变量之间的关系作出精确的定量解释[1,4]。
关键词: 偏最小二乘;一般最小二乘; 主成分;回归
引言
在大量的社会、经济、工程问题中,对于因变量下的全面解释往往需要多个自变量的共同作用[6]。例如,在国民生产总值分析中,可能要考虑第一产业,第二产业,第三产业等对国民生产总值的影响。而研究这种相互作用常用回归分析方法,本文通过用一般最小二乘回归,主成分回归与偏最小二乘回归分别对国名生产总值进行建模预测,得出偏最小二乘回归是较好的回归分析方法。
1. 一般最小二乘回归分析
以1978-2002年的全部解释变量对各被解释变量用全回归法进行一般最小二乘回归建模。2003-2007年做预测集。在α=0.05显著水平下, 对各模型的回归系数进行t检验,除第一产业x1和第三产业x5通过显著性检验外,其他回归系数均未通过。国内生产总值的多元线性回归方程表示如下:
当观察例数大于自变量个数时,最小二乘法即可求得b;但是,如果自变量个数大于观察例数时,x’x是一退化阵,通常的最小二乘法无法进行或只能求其广义逆,此时对回归系数b的估计将很不稳定。经典主成分回归[3]解决了这一问题。它不求x’x值,而直接求x’x的非零特征根和相应的特征向量,以求得原始自变量的线性组合,称为主成分,作为新的自变量与应变量做回归。但这里存在一个重要的问题,就是它选取主成分的方法与应变量无关,只是针对自变量去寻找有代表性的主成分。这就有可能造成选取的主成分与应变量无关,只是针对自变量去寻找有代表性的主成分。这就有可能造成选取的主成分虽可反映自变量的重要信息,但与应变量的关系却极小,同时,与应变量相关性较大,但在自变量中所占比例小的成分却可能被删除。此时得到的回归方程反映真实情况的效果就差。偏最小二乘回归克服了这个缺陷,它在寻求原始自变量的线性函数时,考虑到了其与应变量的相关性,选择了与应变量相关性较强,而又能方便算得的自变量线性函数,因而,对于经典的主成分回归而言是一种好的改变。偏最小二乘回归为预测以后每年的国内生产总值提供了一种好的方法,根据此预测,可以为调整国民经济,促进经济发展。
参 考 文 献
[1] 邓念武,徐晖.单因变量的偏最小二乘回归模型及应用.武汉大学学报,2001,34(2):14-16.
[2] Zhang X, Tian P. modeling and analysis of post purchase intentions using partial least squares. Journal of the Chinese Institute of Industrial Engineers,2004,21(1):68-74.
[3] Stone M, Brooks RJ.Continuum regression: cross-validated sequentially constructed prediction embracing ordinary least squares. partial least squares and principal components regression(with discussion). Royal Statistical Society,1990(Ser.B),52:237-269.
[4] 秦涛,林志娟,陈景武.偏最小二乘回归原理、分析步骤及程序.数理医药学杂志,2007,20(4):450-451.
[5] 王惠文.偏最小二乘回归方法及其应用. 第1版.北京:国防工业出版社,1999,1-11.
[6] 许和连,赖明勇.湖南省经济增长影响因素的实证分析..湖南大学学报(自然科学版),2003,(4):103-107.
[7] 和燕.主成分回归与偏最小二乘回归方法比较.成都电子机械高等专科学校学报,2003,12(4):34-37.
[8] 中国统计年鉴2008.
[9] 谭超,吴同,覃鑫.偏最小二乘组合后向区间选择在近红外定量建模中的应用.计算机与应用化学,2008,4(4):509-512
关键词: 偏最小二乘;一般最小二乘; 主成分;回归
引言
在大量的社会、经济、工程问题中,对于因变量下的全面解释往往需要多个自变量的共同作用[6]。例如,在国民生产总值分析中,可能要考虑第一产业,第二产业,第三产业等对国民生产总值的影响。而研究这种相互作用常用回归分析方法,本文通过用一般最小二乘回归,主成分回归与偏最小二乘回归分别对国名生产总值进行建模预测,得出偏最小二乘回归是较好的回归分析方法。
1. 一般最小二乘回归分析
以1978-2002年的全部解释变量对各被解释变量用全回归法进行一般最小二乘回归建模。2003-2007年做预测集。在α=0.05显著水平下, 对各模型的回归系数进行t检验,除第一产业x1和第三产业x5通过显著性检验外,其他回归系数均未通过。国内生产总值的多元线性回归方程表示如下:
当观察例数大于自变量个数时,最小二乘法即可求得b;但是,如果自变量个数大于观察例数时,x’x是一退化阵,通常的最小二乘法无法进行或只能求其广义逆,此时对回归系数b的估计将很不稳定。经典主成分回归[3]解决了这一问题。它不求x’x值,而直接求x’x的非零特征根和相应的特征向量,以求得原始自变量的线性组合,称为主成分,作为新的自变量与应变量做回归。但这里存在一个重要的问题,就是它选取主成分的方法与应变量无关,只是针对自变量去寻找有代表性的主成分。这就有可能造成选取的主成分与应变量无关,只是针对自变量去寻找有代表性的主成分。这就有可能造成选取的主成分虽可反映自变量的重要信息,但与应变量的关系却极小,同时,与应变量相关性较大,但在自变量中所占比例小的成分却可能被删除。此时得到的回归方程反映真实情况的效果就差。偏最小二乘回归克服了这个缺陷,它在寻求原始自变量的线性函数时,考虑到了其与应变量的相关性,选择了与应变量相关性较强,而又能方便算得的自变量线性函数,因而,对于经典的主成分回归而言是一种好的改变。偏最小二乘回归为预测以后每年的国内生产总值提供了一种好的方法,根据此预测,可以为调整国民经济,促进经济发展。
参 考 文 献
[1] 邓念武,徐晖.单因变量的偏最小二乘回归模型及应用.武汉大学学报,2001,34(2):14-16.
[2] Zhang X, Tian P. modeling and analysis of post purchase intentions using partial least squares. Journal of the Chinese Institute of Industrial Engineers,2004,21(1):68-74.
[3] Stone M, Brooks RJ.Continuum regression: cross-validated sequentially constructed prediction embracing ordinary least squares. partial least squares and principal components regression(with discussion). Royal Statistical Society,1990(Ser.B),52:237-269.
[4] 秦涛,林志娟,陈景武.偏最小二乘回归原理、分析步骤及程序.数理医药学杂志,2007,20(4):450-451.
[5] 王惠文.偏最小二乘回归方法及其应用. 第1版.北京:国防工业出版社,1999,1-11.
[6] 许和连,赖明勇.湖南省经济增长影响因素的实证分析..湖南大学学报(自然科学版),2003,(4):103-107.
[7] 和燕.主成分回归与偏最小二乘回归方法比较.成都电子机械高等专科学校学报,2003,12(4):34-37.
[8] 中国统计年鉴2008.
[9] 谭超,吴同,覃鑫.偏最小二乘组合后向区间选择在近红外定量建模中的应用.计算机与应用化学,2008,4(4):509-512