论文部分内容阅读
【摘要】近年来,伴随着我国粮食自给率的逐年走低,粮食安全问题常常被提及。粮食的供求平衡不仅与农产品大宗商品市场价格稳定息息相关,更重要的是起着维护这回稳定的作用。而粮食种植面积是是影响粮食供给的最重要因素之一,也是农业供给侧改革的主攻方向,因此,对粮食种植面积的研究有着相当重要的理论和现实意义。
【关键词】粮食播种面积 主成分分析 主成分回归
影响粮食种植面积的因素有很多,包含但不限于以下因素:粮食单位面积产量、农业与非农业收入差距、粮食进口价格、粮食生产中农资的投入量、人均粮食拥有量、农业人口数量和比重、农产品市场价和最低收购价。这些因素既相互独立又存在着千丝万缕的内在联系。用普通的多元回归分析方法直接对粮食播种面积和相关因素进行OLS回归会存在严重的多重共线性问题,模型的有效性和解释能力较弱。为避免以上情况,本文采用主成分分析法,先从多种因素中找出影响粮食种植面积的主成分,再利用主成分对粮食种植面积进行回归分析,并对主成分回归模型进行综合检验,评价模型的优劣。与传统的多元线性回归方法相比,主成分分析法可以有效地将高维自变量数据矩阵通过降维的方式变成低维的主成分矩阵,加快运算速度,也有益于降低模型的多重共线性。
一、主成分分析法
主成分分析法通过寻找多维数据中的共同影响成分,以这些主成分对响应变量进行分析,达到数据降维,简化计算的目的。
在实际问题中,一般总体的协方差矩阵或相关矩阵是未知的,需要通过样本来估计。
设X(k)=(xk1,xk2,...,xkp)T(k=1,2,...,n)为来自总体X的样本,记样本数据矩阵为
X=x■ x■…x■x■ x■…x■┆ ┆ ┆x■ x■…x■=X■■X■■┆X■■=X■,X■,...,X■
其中X■■表示样本数据矩阵的各行,Xj表示样本数据矩阵的各列。所以,样本的方差矩阵S为
S=■■(X■-■)(X■-■)■=S■■
样本的相关矩阵R为
R=■Σ■■X*■X*■T=r■■,
其中
X*■=■,■,...,■,
设λ1≥λ2≥...≥λp≥0为样本协方差阵S的特征值,a1,a2,...,ap为相应的单位特征向量,且彼此正交,则第i个主成分zi=aTix,i=1,2,...,p其中x=(x1,x2,...,xp)T.令
z=(z1,z2,...,zp)T=(a1,a2,...,ap)Tx=QTx.
构造样本主成分,令
z(k)=QTx(k).
因此样本主成分为
n=n■ n■…n■n■ n■…n■┆ ┆ ┆n■ n■…n■=z■■z■■┆z■■=z■■Qz■■Q┆z■■Q=XQ
其中z■■表示样本主成分的各行,Zj表示样本主成分的各列.
对于样本主成分有如下性质:
第一:var(Zj)=λj,j=1,2,...,p
第二:var(Zi,Zj)=0,i,j=1,2,...,p,i≠j
在实际应用中,常常将样本数据中心化,所以
Z=z■ z■…z■z■ z■…z■┆ ┆ ┆z■ z■…z■=z■■z■■┆z■■=(X■-■)■Q(X■-■)■Q ┆(X■-■)■Q
二、模型的建立求解
根据影响粮食种植面积的因素选择变量进行主成分分析。主成分分析要求变量的个数小于每个变量的维数。因能找到的数据量有限,故经过分析权衡,选择谷物产量、COBT的小麦主力合约的连续价格、城乡收入差距、有效灌溉面积、人均粮食占有量、小麦进口量、谷物生产价格指数、农业人口数量这8个变量进行主成分分析。
在进行主成分分析之前,为了将不同数据之间数量级的差异和量纲的差异消除,本文对数据采取了归一化处理,使所有的变量范围都位于(0,1)之间。之后采用主成分分析法,利用统计软件R语言进行主成分分析,得到的结果如下
表一 主成分分析表
■
■
根据上表结果可知,前三个主成分的累积方差贡献率达到了97%,其中第一主成分的方差贡献率为71.7%,第二主成分的方差贡献率为16.6%,第三主成分的方差贡献率为8.8%;前三个主成分包含了这8个变量的绝大部分信息。因此可以用这三个主成分来作为自变量与粮食种植面积进行回归。因没有找到全国粮食种植面积,所以采用全国粮食播种面积来代替。
用这三个主成分对粮食种植面积进行回归得到的结果如下:
表二 主成分回归表
■
上表展示了三个主成分对粮食播种面积进行回归分析的结果。三个主成分的t检验结果显示,除第一主成分之外,第二和第三主成分的系数均没有通过检验,碎石图也通过最直观的方式展示了以下結论:三个主成分中第一个主成分对原始变量的解释程度明显大于第二主成分和第三主成分之和。回归方程通过了F检验。表明主成分自变量矩阵可以解释因变量矩阵。因此,主成分回归方程为:
y=0.57527+-0.39865z1+ε
三、结论
本文通过主成分分析法从影响粮食种植面积的多个变量中找出主成分,之后利用得到的主成分主成分对粮食种植面积进行回归分析,并对主成分回归模型进行综合检验,评价模型的优劣。由实证结果可知,影响粮食种植面积的的最重要因素是第一主成分,即粮食播种面积与谷物产量、城乡收入差距、有效灌溉面积、人均粮食占有量、农业人口数量这些影响有关。与传统的多元线性回归方法相比,主成分分析法可以有效地将高维自变量数据矩阵变成低维的主成分矩阵,简化运算。也有益于降低模型的多从共线性和自相关性。
参考文献
[1]薛毅.统计建模与R软件[M].清华大学出版社,2007.
[2]李靖华,郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报,2002,16(1):39-43.
【关键词】粮食播种面积 主成分分析 主成分回归
影响粮食种植面积的因素有很多,包含但不限于以下因素:粮食单位面积产量、农业与非农业收入差距、粮食进口价格、粮食生产中农资的投入量、人均粮食拥有量、农业人口数量和比重、农产品市场价和最低收购价。这些因素既相互独立又存在着千丝万缕的内在联系。用普通的多元回归分析方法直接对粮食播种面积和相关因素进行OLS回归会存在严重的多重共线性问题,模型的有效性和解释能力较弱。为避免以上情况,本文采用主成分分析法,先从多种因素中找出影响粮食种植面积的主成分,再利用主成分对粮食种植面积进行回归分析,并对主成分回归模型进行综合检验,评价模型的优劣。与传统的多元线性回归方法相比,主成分分析法可以有效地将高维自变量数据矩阵通过降维的方式变成低维的主成分矩阵,加快运算速度,也有益于降低模型的多重共线性。
一、主成分分析法
主成分分析法通过寻找多维数据中的共同影响成分,以这些主成分对响应变量进行分析,达到数据降维,简化计算的目的。
在实际问题中,一般总体的协方差矩阵或相关矩阵是未知的,需要通过样本来估计。
设X(k)=(xk1,xk2,...,xkp)T(k=1,2,...,n)为来自总体X的样本,记样本数据矩阵为
X=x■ x■…x■x■ x■…x■┆ ┆ ┆x■ x■…x■=X■■X■■┆X■■=X■,X■,...,X■
其中X■■表示样本数据矩阵的各行,Xj表示样本数据矩阵的各列。所以,样本的方差矩阵S为
S=■■(X■-■)(X■-■)■=S■■
样本的相关矩阵R为
R=■Σ■■X*■X*■T=r■■,
其中
X*■=■,■,...,■,
设λ1≥λ2≥...≥λp≥0为样本协方差阵S的特征值,a1,a2,...,ap为相应的单位特征向量,且彼此正交,则第i个主成分zi=aTix,i=1,2,...,p其中x=(x1,x2,...,xp)T.令
z=(z1,z2,...,zp)T=(a1,a2,...,ap)Tx=QTx.
构造样本主成分,令
z(k)=QTx(k).
因此样本主成分为
n=n■ n■…n■n■ n■…n■┆ ┆ ┆n■ n■…n■=z■■z■■┆z■■=z■■Qz■■Q┆z■■Q=XQ
其中z■■表示样本主成分的各行,Zj表示样本主成分的各列.
对于样本主成分有如下性质:
第一:var(Zj)=λj,j=1,2,...,p
第二:var(Zi,Zj)=0,i,j=1,2,...,p,i≠j
在实际应用中,常常将样本数据中心化,所以
Z=z■ z■…z■z■ z■…z■┆ ┆ ┆z■ z■…z■=z■■z■■┆z■■=(X■-■)■Q(X■-■)■Q ┆(X■-■)■Q
二、模型的建立求解
根据影响粮食种植面积的因素选择变量进行主成分分析。主成分分析要求变量的个数小于每个变量的维数。因能找到的数据量有限,故经过分析权衡,选择谷物产量、COBT的小麦主力合约的连续价格、城乡收入差距、有效灌溉面积、人均粮食占有量、小麦进口量、谷物生产价格指数、农业人口数量这8个变量进行主成分分析。
在进行主成分分析之前,为了将不同数据之间数量级的差异和量纲的差异消除,本文对数据采取了归一化处理,使所有的变量范围都位于(0,1)之间。之后采用主成分分析法,利用统计软件R语言进行主成分分析,得到的结果如下
表一 主成分分析表
■
■
根据上表结果可知,前三个主成分的累积方差贡献率达到了97%,其中第一主成分的方差贡献率为71.7%,第二主成分的方差贡献率为16.6%,第三主成分的方差贡献率为8.8%;前三个主成分包含了这8个变量的绝大部分信息。因此可以用这三个主成分来作为自变量与粮食种植面积进行回归。因没有找到全国粮食种植面积,所以采用全国粮食播种面积来代替。
用这三个主成分对粮食种植面积进行回归得到的结果如下:
表二 主成分回归表
■
上表展示了三个主成分对粮食播种面积进行回归分析的结果。三个主成分的t检验结果显示,除第一主成分之外,第二和第三主成分的系数均没有通过检验,碎石图也通过最直观的方式展示了以下結论:三个主成分中第一个主成分对原始变量的解释程度明显大于第二主成分和第三主成分之和。回归方程通过了F检验。表明主成分自变量矩阵可以解释因变量矩阵。因此,主成分回归方程为:
y=0.57527+-0.39865z1+ε
三、结论
本文通过主成分分析法从影响粮食种植面积的多个变量中找出主成分,之后利用得到的主成分主成分对粮食种植面积进行回归分析,并对主成分回归模型进行综合检验,评价模型的优劣。由实证结果可知,影响粮食种植面积的的最重要因素是第一主成分,即粮食播种面积与谷物产量、城乡收入差距、有效灌溉面积、人均粮食占有量、农业人口数量这些影响有关。与传统的多元线性回归方法相比,主成分分析法可以有效地将高维自变量数据矩阵变成低维的主成分矩阵,简化运算。也有益于降低模型的多从共线性和自相关性。
参考文献
[1]薛毅.统计建模与R软件[M].清华大学出版社,2007.
[2]李靖华,郭耀煌.主成分分析用于多指标评价的方法研究——主成分评价[J].管理工程学报,2002,16(1):39-43.