论文部分内容阅读
摘要:本文通过具体案例,简要说明根据时间序列数据建立和相应经济理论建立线性回归模型的简要步骤及基本原则,并着重介绍了在模型建立和模型有效性检验过程中需要注意的三个主要问题,最后简单介绍了进行模型修正的相应方法。
引言
多元线性回归模型的一般形式为:
Y=β0+β1X1+β2X2+…+βkXk+μi (k,i=1,2,…,n)
其中 k为解释变量的数目,βk(k=1,2,…,n)称为回归系数,上式也被称为总体回归函数的随机表达式。
从统计意义上说,所谓时间序列模型就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。这种数列由于受到各种偶然因素的影响,往往表现出某种随机性,彼此之间存在着统计上的依赖关系。从数学意义上说,如果我们对某一过程中的某一个变量或一组变量X(t)进行观察测量,在一系列时刻t1,t2, …,tn(t为自变量,且t1 模型的建立与历史数据的分析、预测
一般而言,一个“好”的模型,应该具有以下特征:
节省性。一个好的模型应在相对精确反映显示的基础上尽可能的简单。
可识别性。所谓的可识别性,是指对于给定的一组数据,估计的参数要有唯一确定值。
高拟合性。指模型解释被解释变量的能力应当尽可能的高。
理论一致性。模型应当以相应的科学理论为基础,否则尽管模型的解释能力很强,拟合性很好,也是失败的模型。
预测能力。一个好的模型必须对未来有较强的解释能力。
下面,我们以我国1980年至2002年的国内生产总值数据为例,使用多元线性回归模型进行详细说明。
根据萨缪尔森提出的乘数-加速数模型,投资的增加对国民收入的增加具有乘数作用,反过来,国民收入对引致投资具有加速作用。根据这一模型,我们可以建立如下简单模型:
GDPt=β0+β1GDPt-1+β2It
公式 1
其中,GDP代表全年国内生产总值,I代表当年全社会固定资产投资。
下面,我们使用Eviews 5.0软件,使用最小二乘法来估计该模型。
图表 1
从以上结果可以得到,我们得到具体模型:
GDPt=2795.560+0.653687GDPt-1+0.995849It
其中R2及Adjusted R2分别为0.995243及0.994743,显示该模型有着很高的拟合度。
但经典线性回归模型有五个基本前提假设:
E(ut)=0,即误差项具有零均值;
Var(ut)=σ2<,即误差项具有常数方差,且对于所有x值是有限的;
Cov(ui,uj)=0,即误差项之间在统计意义上是相互独立的;
Cov(ui,xt)=0,即误差项与变量x无关;
ut~N(0,σ2),即误差项服从正态分布。
这五个前提假设有时候会被违背,其中异方差、自相关及多重共线性出现的情况比较多。
异方差是对同方差假设的违反,即Var(ut)=σ2常数。当出现异方差情况时,使用最小二乘法估计的出的模型线性和无偏性不会受影响,但不再具备最优性,即在所有线性无偏估计值中我们得出的估计值的方差并非是最小的,所以的模型的准确性受到影响。下面我们使用ARCH檢验来检验该模型是否有异方差的情况出现。
图表 2
上图即为ARCH检验的结果。从图中可得,拟合优度与观测数的乘积为0.106723*22等于2.347906,F统计量为6.083602,因此接受原假设,该模型没有异方差情况出现。
自相关情况是指经典线性回归模型的基本假设第三条Cov(ui,uj)=0,即误差项之间在统计意义上是相互独立被违反,Cov(ui,uj)0,ij,随机误差项的取值与它的前一期或前几期的取值有关。自相关有正相关和负相关之分,实证表明,在经济数据中常见的是正自相关。自相关出现的后果有:最小二乘法估计量仍然是线性的和无偏的,但却不是有效的;最小二乘法估计量的方差是有偏的。这样会使我们误认为方程是正确的,但却又无法用经济理论解释。下面我们用Durbin-h检验来检验模型是否存在自相关。
图表 3
我们可以看到,其中Durbin-Watson统计值为0.373080。因为存在被解释变量的滞后项,所以DW检验失效,可以采用Durbin-h检验法。滞后因变量系数的标准误差是0.135,DW=0.37,T=23,所以h=5.13。因为5.13大于显著性水平为0.05正态分布的临界值1.96,因此我们拒绝不存在序列自相关的原假设。
多重共线性是指回归模型中的任一变量都可以由其它变量的线性组合退出,则这组变量满足多重共线性。一般来说,多重共线性普遍存在,严重的多重共线性将导致:1、回归方程参数估计值不准确;2、由于参数估计值的标准差变大,t值将缩小,使得t检验有可能得出错误的结论;3、将无法区分单个变量对被解释变量的影响作用。多重共线性的检验可以通过观察解释变量之间的相关系数来判断。
图表 4
从上述表格我们可以看出,被解释变量GDP(-1)与I之间的相关系数高达0.992042。一般来说,当两个解释变量之间的相关系数大于0.8,我们就可以认为存在严重的多重共线性,因此,该模型两个被解释变量之间具有严重的多重共线性。
结语
从上文我们可以看出,尽管我们根据相应的经济理论建立了一个简单的模型,并以相应的时间序列数据为基础,使用最小二乘法对参数进行了估计,得到了一个具有很高拟合优度的模型。但该模型本身存在自相关及多重共线性问题,因此相应估计参数并不精确,并不是一个能够投入实际使用的,具有真正价值的模型。对于异方差,我们可以使用广义最小二乘法、模型对数变换法等方法来进行修正;对于自相关,我们可以使用广义差分法、杜宾两步法来进行修正;对于多重共线性,我们则可以通过删除不必要变量、改变解释变量的形式、补充新数据等方法来进行修正,这些方法的具体内容与本文主题无关,在此就不再赘述。
注:文章内所有公式及图表请以PDF形式查看。
引言
多元线性回归模型的一般形式为:
Y=β0+β1X1+β2X2+…+βkXk+μi (k,i=1,2,…,n)
其中 k为解释变量的数目,βk(k=1,2,…,n)称为回归系数,上式也被称为总体回归函数的随机表达式。
从统计意义上说,所谓时间序列模型就是将某一个指标在不同时间上的不同数值,按照时间的先后顺序排列而成的数列。这种数列由于受到各种偶然因素的影响,往往表现出某种随机性,彼此之间存在着统计上的依赖关系。从数学意义上说,如果我们对某一过程中的某一个变量或一组变量X(t)进行观察测量,在一系列时刻t1,t2, …,tn(t为自变量,且t1
一般而言,一个“好”的模型,应该具有以下特征:
节省性。一个好的模型应在相对精确反映显示的基础上尽可能的简单。
可识别性。所谓的可识别性,是指对于给定的一组数据,估计的参数要有唯一确定值。
高拟合性。指模型解释被解释变量的能力应当尽可能的高。
理论一致性。模型应当以相应的科学理论为基础,否则尽管模型的解释能力很强,拟合性很好,也是失败的模型。
预测能力。一个好的模型必须对未来有较强的解释能力。
下面,我们以我国1980年至2002年的国内生产总值数据为例,使用多元线性回归模型进行详细说明。
根据萨缪尔森提出的乘数-加速数模型,投资的增加对国民收入的增加具有乘数作用,反过来,国民收入对引致投资具有加速作用。根据这一模型,我们可以建立如下简单模型:
GDPt=β0+β1GDPt-1+β2It
公式 1
其中,GDP代表全年国内生产总值,I代表当年全社会固定资产投资。
下面,我们使用Eviews 5.0软件,使用最小二乘法来估计该模型。
图表 1
从以上结果可以得到,我们得到具体模型:
GDPt=2795.560+0.653687GDPt-1+0.995849It
其中R2及Adjusted R2分别为0.995243及0.994743,显示该模型有着很高的拟合度。
但经典线性回归模型有五个基本前提假设:
E(ut)=0,即误差项具有零均值;
Var(ut)=σ2<,即误差项具有常数方差,且对于所有x值是有限的;
Cov(ui,uj)=0,即误差项之间在统计意义上是相互独立的;
Cov(ui,xt)=0,即误差项与变量x无关;
ut~N(0,σ2),即误差项服从正态分布。
这五个前提假设有时候会被违背,其中异方差、自相关及多重共线性出现的情况比较多。
异方差是对同方差假设的违反,即Var(ut)=σ2常数。当出现异方差情况时,使用最小二乘法估计的出的模型线性和无偏性不会受影响,但不再具备最优性,即在所有线性无偏估计值中我们得出的估计值的方差并非是最小的,所以的模型的准确性受到影响。下面我们使用ARCH檢验来检验该模型是否有异方差的情况出现。
图表 2
上图即为ARCH检验的结果。从图中可得,拟合优度与观测数的乘积为0.106723*22等于2.347906,F统计量为6.083602,因此接受原假设,该模型没有异方差情况出现。
自相关情况是指经典线性回归模型的基本假设第三条Cov(ui,uj)=0,即误差项之间在统计意义上是相互独立被违反,Cov(ui,uj)0,ij,随机误差项的取值与它的前一期或前几期的取值有关。自相关有正相关和负相关之分,实证表明,在经济数据中常见的是正自相关。自相关出现的后果有:最小二乘法估计量仍然是线性的和无偏的,但却不是有效的;最小二乘法估计量的方差是有偏的。这样会使我们误认为方程是正确的,但却又无法用经济理论解释。下面我们用Durbin-h检验来检验模型是否存在自相关。
图表 3
我们可以看到,其中Durbin-Watson统计值为0.373080。因为存在被解释变量的滞后项,所以DW检验失效,可以采用Durbin-h检验法。滞后因变量系数的标准误差是0.135,DW=0.37,T=23,所以h=5.13。因为5.13大于显著性水平为0.05正态分布的临界值1.96,因此我们拒绝不存在序列自相关的原假设。
多重共线性是指回归模型中的任一变量都可以由其它变量的线性组合退出,则这组变量满足多重共线性。一般来说,多重共线性普遍存在,严重的多重共线性将导致:1、回归方程参数估计值不准确;2、由于参数估计值的标准差变大,t值将缩小,使得t检验有可能得出错误的结论;3、将无法区分单个变量对被解释变量的影响作用。多重共线性的检验可以通过观察解释变量之间的相关系数来判断。
图表 4
从上述表格我们可以看出,被解释变量GDP(-1)与I之间的相关系数高达0.992042。一般来说,当两个解释变量之间的相关系数大于0.8,我们就可以认为存在严重的多重共线性,因此,该模型两个被解释变量之间具有严重的多重共线性。
结语
从上文我们可以看出,尽管我们根据相应的经济理论建立了一个简单的模型,并以相应的时间序列数据为基础,使用最小二乘法对参数进行了估计,得到了一个具有很高拟合优度的模型。但该模型本身存在自相关及多重共线性问题,因此相应估计参数并不精确,并不是一个能够投入实际使用的,具有真正价值的模型。对于异方差,我们可以使用广义最小二乘法、模型对数变换法等方法来进行修正;对于自相关,我们可以使用广义差分法、杜宾两步法来进行修正;对于多重共线性,我们则可以通过删除不必要变量、改变解释变量的形式、补充新数据等方法来进行修正,这些方法的具体内容与本文主题无关,在此就不再赘述。
注:文章内所有公式及图表请以PDF形式查看。