论文部分内容阅读
摘 要:该报告以波士顿房价数据样本为研究对象,目的是通过统计学方法分析各变量与波士顿郊区房价之间的关系,选出对房价影响较大的几个变量,并确定各变量之间的数学关系。分析采用的软件是SPSS, 分析方法为因子分析、相关分析、回归分析方法。首先,鉴于样本变量较多,因此通过因子分析检验是否可以对变量进行降维处理。然后,对数据进行相关性分析,先找出5个与房价相关性较强的变量,并针对变量建立多元回归模型,在对该模型评价之后,确认了其中三个变量的强相关关系;在剔除相关性较弱的两个变量之后,又建立了新的回归模型,经评价,该模型对变量的解释较贴切,检验效果显著。通过以上分析,得出影响房价的主要因素为:房间数量、居民社会地位、教育程度,并构建了多元线性方程。
关键词:因子分析 相关 多元 回归
一、统计前估计及变量的选择处理
1.预先估计。初步判断14个变量,根据个人先验知识做出房价影响因素的估计:预计空气质量和距离就业中心的距离将在很大程度上影响房价,即,NOX和DIS两个变量将显示出与价变量MEDV之间的强相关关系。
2.变量选择。波士顿房价数据样本共14个变量,包括13个定量变量和1个定性变量,共计506个数据。定性变量为,是否临近河边——CHAS。除此之外其余都为定量变量。鉴于数据量较大,且为了统计方便,在接下来的分析中,将剔除该定性变量。对剩下的13个变量进行统计分析。
二、因子分析
该样本数据14个属性,共计506个数据。数据样本较大,维数较高。考虑到更加便捷地提高分析效率,要分析各因素对波士顿房价的影响,首先对变量进行降维处理,考虑14个变量中是否可由一两个综合变量来进行概括。因此,首先对样本数据进行主成分和因子分析。设置因子数量为3.
1.主成分选取。数据结果显示,前三个成分特征值累计占了总方差的72.341%,后面的特征值贡献低于10%,且越来越小。
2.对主成分的解释。相对于主成分矩阵来说,旋转后的矩阵更能将结果清晰地表达出来,因此我们队旋转矩阵进行分析。我们将CRIM,ZN……MEDV等变量表示为X1,X2……X14,三个因子表示为f1, f2,f3。那么,变量就可以用因子表示为:
X1=0.141f1+0.740f2+0.200f3,X2=-0.759f1+0.022f2-0.298f3,……
X14=-0.177f1-0.265f2-0.860f3.
第一个因子主要和INDUS, NOX,AGE三个变量呈明显的正相关性,即:非零售企业占地、氮氧化合物集中度、1940年前房屋年限。总结来说,可以将该因子归纳为“房屋环境状态”。
第二个因子主要与CRIM, RAD, TAX两个变量相关性较强,即:犯罪率、高速公路可得性、财产税。可归为“生活质量”。第三个因子相关变量为PTRATIO, LSTAT。即:学生教师人数比,底层人口比重。可以总结为“教育程度”因子。
3.因子分析评价。除去定性变量之外,影响房价的变量主要可以归纳为“房屋环境状态”、“人們生活质量”和“教育程度”三个因子。从房屋、业主、人文环境三个方面概括了影响波士顿房价的因素。因子分析中仍存在以下问题,第一,因子之间的变量内容并不是十分一致,并且略显牵强。而且,由变量与因子之间的相关性也可以看出,三个因子的形成结果也并不是很清楚。三个成分特征值占比并不是很高。第二,除了上述因子中囊括的变量外,有一些事先会对房价产生重要影响的变量没有体现出来,例如DIS——距离就业中心的加权距离。显然,距离市中心和办公地点集中地的距离是影响人们房屋选址的重要因素。其次,RM——平均房间数量,也是一个影响房价的显著因素。但并没有被纳入因子范畴。这些忽略的变量信息我将在下文的相关分析中进行补充分析。第三,归纳为因子组成部分的某些变量关系不准确。例如,RAD——高速公路可得性,表现出与第二个因子强烈的相关关系,然而第二个因子与我们研究的因变量MEDV成负相关关系。也就是说,因子分析的结果为,交通越便利,房价越低。这个分析有偏差的变量也将在接下来的分析中加以纠正。
三、相关分析
作分析前,由先验知识判断,空气质量、上班距离和交通状况可能成为影响房价的主要因素,因此将着重分析NOX, DIS, RAD对房价的影响。另外,为了对因子分析结果做出补偿,还将讨论RM与房价的相关关系。从散点矩阵图和相关性数值进行分析,从两张图的最后一行来看,与MEDV相关关系较强的变量包括:RM, LSTAT,相关性绝对值接近于1。除此之外,NOX, INDUS, PTRATIO也表现出了一定的相关关系。接下来,我们将通过回归来一次验证这些变量与房价之间的关系。
四、回归分析
1.建立多元回归模型。通过建立多元回归模型验证所选5个变量与房价之间的相关关系——RM, LSTAT, NOX, INDUS, PTRATIO与MEDV的回归分析(设置置信区间:95%)。结果显示:总体来看,该模型拟合效果较显著。从ANOVA表中可以看出,在95%的置信度下,F检验显示该模型的显著性较强。MEDV与RM, LSTAT, PTRATIO的线性相关关系较显著,与NOX, INDUS的相关性较弱。从各变量的显著性水平结果来看,NOX, INDUS的相关性并不是十分显著。因此,在下一步的回归中,将剔除这两个变量,重新建立模型。变量与房价之间的相关性:RM与MEDV呈较强的正相关关系;LSTAT与MEDV呈较强的负相关;PTRATIO也与MEDV呈负相关关系,但相比LSTAT相关性较弱。然而,NOX与INDUS与MEDV并未呈现出明显的相关关系。
2.多元回归模型改进。选取分析(一)中显示出强相关性的三个变量重新进行回归分析:RM, LSTAT, PTRATIO。假设RM LSTAT, PTRATIO分别为X1,X2,X3,MEDV为Y。估计该线性回归模型为:
Y=β0+β1X1+β2X2+β3X2+ε (1)
回归结果如下:
在剔除两个弱相关变量之后,决定系数和ANOVA结果显示该模型具有较好
的显著性。F值由原来的212.436增加至353.345。决定系数R2=0.679,表示这三个自变量可以大约解释67.9%的因变量变化。
3.由上表中“系数”表结果可得出模型中各参数值:
β0=18.567(2) β1=4.515(3)
β2=-0.572(4) β3=-0.931(5)
因此,新模型方程为:
Y=4.545X1-0.572X2-0.931X3+18.567 (6)
五、统计结果总结
1.多元线性模型解释。
1.1波士顿郊区房价与房间数量呈强烈的正线性相关,与低社会地位人口比重即学生教师人数比呈负线性相关关系。其中影响房价的最主要因素是房间数量(RM)。
1.2房间数量越多,房价越高;居民社会地位普遍越高,房价越高;居民教育可得性和受教育程度越高,房价越高。
2.统计结果与预测对比。该结果与本人事前对变量相关关系的估计不一致。预测的NOX, DIS并没有在分析中表现出与房价之间的明显线性相关关系。也就是说,该统计分析未能对本人的事先估计——“空气质量和距就业中心的距离将显著影响房价”。然而,并不能断定这两个变量与房价之间无关。若仍然存在相关性,则产生这种结果的原因可能有两个:
2.1二者与房价之间存在非线性相关关系。
2.2在分析中所采取样本数据质量干扰了相关关系的产生。
3.本文局限性。除去忽略的一个定性变量,CHAS,本文分析的数据包括了几乎所有的506个数据。数据样本较大。在分析中容易对结果产生扰乱。在今后的分析中若能进一步从样本数据中有效提取部分数据,可能会使统计结果更接近事实。
作者简介:米纯(1992—),女,山东省烟台市,专业或研究方向:金融统计与数据分析。
关键词:因子分析 相关 多元 回归
一、统计前估计及变量的选择处理
1.预先估计。初步判断14个变量,根据个人先验知识做出房价影响因素的估计:预计空气质量和距离就业中心的距离将在很大程度上影响房价,即,NOX和DIS两个变量将显示出与价变量MEDV之间的强相关关系。
2.变量选择。波士顿房价数据样本共14个变量,包括13个定量变量和1个定性变量,共计506个数据。定性变量为,是否临近河边——CHAS。除此之外其余都为定量变量。鉴于数据量较大,且为了统计方便,在接下来的分析中,将剔除该定性变量。对剩下的13个变量进行统计分析。
二、因子分析
该样本数据14个属性,共计506个数据。数据样本较大,维数较高。考虑到更加便捷地提高分析效率,要分析各因素对波士顿房价的影响,首先对变量进行降维处理,考虑14个变量中是否可由一两个综合变量来进行概括。因此,首先对样本数据进行主成分和因子分析。设置因子数量为3.
1.主成分选取。数据结果显示,前三个成分特征值累计占了总方差的72.341%,后面的特征值贡献低于10%,且越来越小。
2.对主成分的解释。相对于主成分矩阵来说,旋转后的矩阵更能将结果清晰地表达出来,因此我们队旋转矩阵进行分析。我们将CRIM,ZN……MEDV等变量表示为X1,X2……X14,三个因子表示为f1, f2,f3。那么,变量就可以用因子表示为:
X1=0.141f1+0.740f2+0.200f3,X2=-0.759f1+0.022f2-0.298f3,……
X14=-0.177f1-0.265f2-0.860f3.
第一个因子主要和INDUS, NOX,AGE三个变量呈明显的正相关性,即:非零售企业占地、氮氧化合物集中度、1940年前房屋年限。总结来说,可以将该因子归纳为“房屋环境状态”。
第二个因子主要与CRIM, RAD, TAX两个变量相关性较强,即:犯罪率、高速公路可得性、财产税。可归为“生活质量”。第三个因子相关变量为PTRATIO, LSTAT。即:学生教师人数比,底层人口比重。可以总结为“教育程度”因子。
3.因子分析评价。除去定性变量之外,影响房价的变量主要可以归纳为“房屋环境状态”、“人們生活质量”和“教育程度”三个因子。从房屋、业主、人文环境三个方面概括了影响波士顿房价的因素。因子分析中仍存在以下问题,第一,因子之间的变量内容并不是十分一致,并且略显牵强。而且,由变量与因子之间的相关性也可以看出,三个因子的形成结果也并不是很清楚。三个成分特征值占比并不是很高。第二,除了上述因子中囊括的变量外,有一些事先会对房价产生重要影响的变量没有体现出来,例如DIS——距离就业中心的加权距离。显然,距离市中心和办公地点集中地的距离是影响人们房屋选址的重要因素。其次,RM——平均房间数量,也是一个影响房价的显著因素。但并没有被纳入因子范畴。这些忽略的变量信息我将在下文的相关分析中进行补充分析。第三,归纳为因子组成部分的某些变量关系不准确。例如,RAD——高速公路可得性,表现出与第二个因子强烈的相关关系,然而第二个因子与我们研究的因变量MEDV成负相关关系。也就是说,因子分析的结果为,交通越便利,房价越低。这个分析有偏差的变量也将在接下来的分析中加以纠正。
三、相关分析
作分析前,由先验知识判断,空气质量、上班距离和交通状况可能成为影响房价的主要因素,因此将着重分析NOX, DIS, RAD对房价的影响。另外,为了对因子分析结果做出补偿,还将讨论RM与房价的相关关系。从散点矩阵图和相关性数值进行分析,从两张图的最后一行来看,与MEDV相关关系较强的变量包括:RM, LSTAT,相关性绝对值接近于1。除此之外,NOX, INDUS, PTRATIO也表现出了一定的相关关系。接下来,我们将通过回归来一次验证这些变量与房价之间的关系。
四、回归分析
1.建立多元回归模型。通过建立多元回归模型验证所选5个变量与房价之间的相关关系——RM, LSTAT, NOX, INDUS, PTRATIO与MEDV的回归分析(设置置信区间:95%)。结果显示:总体来看,该模型拟合效果较显著。从ANOVA表中可以看出,在95%的置信度下,F检验显示该模型的显著性较强。MEDV与RM, LSTAT, PTRATIO的线性相关关系较显著,与NOX, INDUS的相关性较弱。从各变量的显著性水平结果来看,NOX, INDUS的相关性并不是十分显著。因此,在下一步的回归中,将剔除这两个变量,重新建立模型。变量与房价之间的相关性:RM与MEDV呈较强的正相关关系;LSTAT与MEDV呈较强的负相关;PTRATIO也与MEDV呈负相关关系,但相比LSTAT相关性较弱。然而,NOX与INDUS与MEDV并未呈现出明显的相关关系。
2.多元回归模型改进。选取分析(一)中显示出强相关性的三个变量重新进行回归分析:RM, LSTAT, PTRATIO。假设RM LSTAT, PTRATIO分别为X1,X2,X3,MEDV为Y。估计该线性回归模型为:
Y=β0+β1X1+β2X2+β3X2+ε (1)
回归结果如下:
在剔除两个弱相关变量之后,决定系数和ANOVA结果显示该模型具有较好
的显著性。F值由原来的212.436增加至353.345。决定系数R2=0.679,表示这三个自变量可以大约解释67.9%的因变量变化。
3.由上表中“系数”表结果可得出模型中各参数值:
β0=18.567(2) β1=4.515(3)
β2=-0.572(4) β3=-0.931(5)
因此,新模型方程为:
Y=4.545X1-0.572X2-0.931X3+18.567 (6)
五、统计结果总结
1.多元线性模型解释。
1.1波士顿郊区房价与房间数量呈强烈的正线性相关,与低社会地位人口比重即学生教师人数比呈负线性相关关系。其中影响房价的最主要因素是房间数量(RM)。
1.2房间数量越多,房价越高;居民社会地位普遍越高,房价越高;居民教育可得性和受教育程度越高,房价越高。
2.统计结果与预测对比。该结果与本人事前对变量相关关系的估计不一致。预测的NOX, DIS并没有在分析中表现出与房价之间的明显线性相关关系。也就是说,该统计分析未能对本人的事先估计——“空气质量和距就业中心的距离将显著影响房价”。然而,并不能断定这两个变量与房价之间无关。若仍然存在相关性,则产生这种结果的原因可能有两个:
2.1二者与房价之间存在非线性相关关系。
2.2在分析中所采取样本数据质量干扰了相关关系的产生。
3.本文局限性。除去忽略的一个定性变量,CHAS,本文分析的数据包括了几乎所有的506个数据。数据样本较大。在分析中容易对结果产生扰乱。在今后的分析中若能进一步从样本数据中有效提取部分数据,可能会使统计结果更接近事实。
作者简介:米纯(1992—),女,山东省烟台市,专业或研究方向:金融统计与数据分析。