波士顿房价数据统计分析报告

来源 :经营管理者·中旬刊 | 被引量 : 0次 | 上传用户:aiwo2516
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:该报告以波士顿房价数据样本为研究对象,目的是通过统计学方法分析各变量与波士顿郊区房价之间的关系,选出对房价影响较大的几个变量,并确定各变量之间的数学关系。分析采用的软件是SPSS, 分析方法为因子分析、相关分析、回归分析方法。首先,鉴于样本变量较多,因此通过因子分析检验是否可以对变量进行降维处理。然后,对数据进行相关性分析,先找出5个与房价相关性较强的变量,并针对变量建立多元回归模型,在对该模型评价之后,确认了其中三个变量的强相关关系;在剔除相关性较弱的两个变量之后,又建立了新的回归模型,经评价,该模型对变量的解释较贴切,检验效果显著。通过以上分析,得出影响房价的主要因素为:房间数量、居民社会地位、教育程度,并构建了多元线性方程。
  关键词:因子分析 相关 多元 回归
  一、统计前估计及变量的选择处理
  1.预先估计。初步判断14个变量,根据个人先验知识做出房价影响因素的估计:预计空气质量和距离就业中心的距离将在很大程度上影响房价,即,NOX和DIS两个变量将显示出与价变量MEDV之间的强相关关系。
  2.变量选择。波士顿房价数据样本共14个变量,包括13个定量变量和1个定性变量,共计506个数据。定性变量为,是否临近河边——CHAS。除此之外其余都为定量变量。鉴于数据量较大,且为了统计方便,在接下来的分析中,将剔除该定性变量。对剩下的13个变量进行统计分析。
  二、因子分析
  该样本数据14个属性,共计506个数据。数据样本较大,维数较高。考虑到更加便捷地提高分析效率,要分析各因素对波士顿房价的影响,首先对变量进行降维处理,考虑14个变量中是否可由一两个综合变量来进行概括。因此,首先对样本数据进行主成分和因子分析。设置因子数量为3.
  1.主成分选取。数据结果显示,前三个成分特征值累计占了总方差的72.341%,后面的特征值贡献低于10%,且越来越小。
  2.对主成分的解释。相对于主成分矩阵来说,旋转后的矩阵更能将结果清晰地表达出来,因此我们队旋转矩阵进行分析。我们将CRIM,ZN……MEDV等变量表示为X1,X2……X14,三个因子表示为f1, f2,f3。那么,变量就可以用因子表示为:
  X1=0.141f1+0.740f2+0.200f3,X2=-0.759f1+0.022f2-0.298f3,……
  X14=-0.177f1-0.265f2-0.860f3.
  第一个因子主要和INDUS, NOX,AGE三个变量呈明显的正相关性,即:非零售企业占地、氮氧化合物集中度、1940年前房屋年限。总结来说,可以将该因子归纳为“房屋环境状态”。
  第二个因子主要与CRIM, RAD, TAX两个变量相关性较强,即:犯罪率、高速公路可得性、财产税。可归为“生活质量”。第三个因子相关变量为PTRATIO, LSTAT。即:学生教师人数比,底层人口比重。可以总结为“教育程度”因子。
  3.因子分析评价。除去定性变量之外,影响房价的变量主要可以归纳为“房屋环境状态”、“人們生活质量”和“教育程度”三个因子。从房屋、业主、人文环境三个方面概括了影响波士顿房价的因素。因子分析中仍存在以下问题,第一,因子之间的变量内容并不是十分一致,并且略显牵强。而且,由变量与因子之间的相关性也可以看出,三个因子的形成结果也并不是很清楚。三个成分特征值占比并不是很高。第二,除了上述因子中囊括的变量外,有一些事先会对房价产生重要影响的变量没有体现出来,例如DIS——距离就业中心的加权距离。显然,距离市中心和办公地点集中地的距离是影响人们房屋选址的重要因素。其次,RM——平均房间数量,也是一个影响房价的显著因素。但并没有被纳入因子范畴。这些忽略的变量信息我将在下文的相关分析中进行补充分析。第三,归纳为因子组成部分的某些变量关系不准确。例如,RAD——高速公路可得性,表现出与第二个因子强烈的相关关系,然而第二个因子与我们研究的因变量MEDV成负相关关系。也就是说,因子分析的结果为,交通越便利,房价越低。这个分析有偏差的变量也将在接下来的分析中加以纠正。
  三、相关分析
  作分析前,由先验知识判断,空气质量、上班距离和交通状况可能成为影响房价的主要因素,因此将着重分析NOX, DIS, RAD对房价的影响。另外,为了对因子分析结果做出补偿,还将讨论RM与房价的相关关系。从散点矩阵图和相关性数值进行分析,从两张图的最后一行来看,与MEDV相关关系较强的变量包括:RM, LSTAT,相关性绝对值接近于1。除此之外,NOX, INDUS, PTRATIO也表现出了一定的相关关系。接下来,我们将通过回归来一次验证这些变量与房价之间的关系。
  四、回归分析
  1.建立多元回归模型。通过建立多元回归模型验证所选5个变量与房价之间的相关关系——RM, LSTAT, NOX, INDUS, PTRATIO与MEDV的回归分析(设置置信区间:95%)。结果显示:总体来看,该模型拟合效果较显著。从ANOVA表中可以看出,在95%的置信度下,F检验显示该模型的显著性较强。MEDV与RM, LSTAT, PTRATIO的线性相关关系较显著,与NOX, INDUS的相关性较弱。从各变量的显著性水平结果来看,NOX, INDUS的相关性并不是十分显著。因此,在下一步的回归中,将剔除这两个变量,重新建立模型。变量与房价之间的相关性:RM与MEDV呈较强的正相关关系;LSTAT与MEDV呈较强的负相关;PTRATIO也与MEDV呈负相关关系,但相比LSTAT相关性较弱。然而,NOX与INDUS与MEDV并未呈现出明显的相关关系。
  2.多元回归模型改进。选取分析(一)中显示出强相关性的三个变量重新进行回归分析:RM, LSTAT, PTRATIO。假设RM LSTAT, PTRATIO分别为X1,X2,X3,MEDV为Y。估计该线性回归模型为:
  Y=β0+β1X1+β2X2+β3X2+ε (1)
  回归结果如下:
  在剔除两个弱相关变量之后,决定系数和ANOVA结果显示该模型具有较好
  的显著性。F值由原来的212.436增加至353.345。决定系数R2=0.679,表示这三个自变量可以大约解释67.9%的因变量变化。
  3.由上表中“系数”表结果可得出模型中各参数值:
  β0=18.567(2) β1=4.515(3)
  β2=-0.572(4) β3=-0.931(5)
  因此,新模型方程为:
  Y=4.545X1-0.572X2-0.931X3+18.567 (6)
  五、统计结果总结
  1.多元线性模型解释。
  1.1波士顿郊区房价与房间数量呈强烈的正线性相关,与低社会地位人口比重即学生教师人数比呈负线性相关关系。其中影响房价的最主要因素是房间数量(RM)。
  1.2房间数量越多,房价越高;居民社会地位普遍越高,房价越高;居民教育可得性和受教育程度越高,房价越高。
  2.统计结果与预测对比。该结果与本人事前对变量相关关系的估计不一致。预测的NOX, DIS并没有在分析中表现出与房价之间的明显线性相关关系。也就是说,该统计分析未能对本人的事先估计——“空气质量和距就业中心的距离将显著影响房价”。然而,并不能断定这两个变量与房价之间无关。若仍然存在相关性,则产生这种结果的原因可能有两个:
  2.1二者与房价之间存在非线性相关关系。
  2.2在分析中所采取样本数据质量干扰了相关关系的产生。
  3.本文局限性。除去忽略的一个定性变量,CHAS,本文分析的数据包括了几乎所有的506个数据。数据样本较大。在分析中容易对结果产生扰乱。在今后的分析中若能进一步从样本数据中有效提取部分数据,可能会使统计结果更接近事实。
  作者简介:米纯(1992—),女,山东省烟台市,专业或研究方向:金融统计与数据分析。
其他文献
摘 要:人才培养作为一个组织和单位形成可持续发展能力的重要关键措施,一直受到各级管理人员的关注。对于高科技企事业单位而言,青年骨干技术人才代表了单位将来的核心竞争力。本文基于企业战略和文化发展,对航天某研究所结合单位实际,系统开展青年骨干技术人才培养,以及过程中的方式和方法进行了研究。初步建立了研究所核心技术和人才可持续发展的机制,以此希望对相关单位后的发展提供借鉴。  关键词:青年骨干技术人才培
期刊
摘 要:随着新媒体的发展,传统媒体面临着强大的竞争冲击,虽然两者各具优势,但传统媒体想要增强核心竞争力,就必须对其人力资源配置进行根本性改革。本文将针对当前传统媒体所面临的人力资源配置存在的理念和体制问题,提出若干优化传统媒体人力资源配置的建议。  关键词:新媒体 传统媒体 人力资源配置 优化  近几年来,新媒体如互联网以及移动应用等信息传播方式不断孵化出深受大众喜爱的节目和产品,其经营模式灵活多
期刊
摘 要:随着我国改革开放的深入发展,我国社会不断进步,而且当前社会上有多种所有制卫生医疗机构不断涌现,所以这就使得我国医院的发展面临着新挑战,医疗行业的竞争也越来越激烈。要想在激烈的竞争中取得优势,就必须要做好医院的人力资源管理,而且医院的人力资源管理也存在着多方面的问题,比如说分配体制不完善、管理机制不健全以及缺乏有效的激励手段等等。而且对于医院的人力资源管理工作来说,激励发挥着不容忽视的作用,
期刊
摘 要:企业社会责任与核心竞争力之间具有不可分割的重要联系。企业的发展离不开社会责任。其与财务业绩、企业形象、运营成本和人力资源等息息相关。在多元化的社会市场背景下,企业要树立正确的社会责任意识,借助法律法规提高自身的行为约束力,以充分挖掘市场潜力。近年来,企业负责人逐渐认识到社会责任对企业运营和发展的重要作用,并提高了对其重视力度,很大程度上提升了企业的核心竞争力。  关键词:社会责任 核心竞争
期刊
摘 要:在当今市场环境下较多数的煤炭以及相关企业进行了人力资源优化以及调整,如果说职工的招聘培训引导企业未来的发展方向,那么培训考核则奠定了企业未来发展的速度和质量,培训考核作为人力资源工作的重要板块,我们也察觉到了其中的很多问题并提出一些改善建议,以供大家参考。  关键词:煤炭企业 培训考核 改善建议  安全培训作为煤炭企业安全管理工作的重中之重,合理有效的培训考核则是达到培训效果最直接的保障,
期刊
摘 要:发展县域经济是建设经济强省的基础,是实现全面建成小康社会目标的重中之重。但是河北省县域经济发展现状中仍存在一系列问题,这些问题使县域经济发展面临这人才困境。人才的培养与经济发展有着密切的联系,二者相互依赖、互为促进。本文通过以上的分析,提出人才培养的策略,以促进河北省加快县域经济发展,助力经济强省建设。  关键词:县域经济 经济强省建设 人才困境 河北省 人才培养  2014年,河北省所辖
期刊
摘 要:中国经济迎来新常态的发展状态,社会总需求增速和需求结构都发生了改变。与此同时,传统制造业在面临市场需求变化时,能否以正确的供应链管理策略来应对这场变革,就成为了企业转型至关重要的环节。本文借此问题来探讨新常态背景下的供应链优化策略。  关键词:新常态 传统制造业 供应链  一、宏观经济发展步入新常态  改革开放30余年来,中国经济经历了经济高速增长阶段,而近年来受到人工成本的上升、人民币汇
期刊
摘 要:发掘潜在人力资源并充分发挥现有人才优势,是我国企业发展和创新的关键,也是促进我国社会发展所必不可少的手段。但目前,我国企业在人力资源管理上受到传统人事管理的影响,存在较多问题,亟需予以改进和完善。基于此,本文介绍了人力资源管理的特点,并提出创新企业人力资源管理的策略,以期促进我国企业的可持续发展。  关键词:人力资源管理 创新策略 绩效管理  人才是当今时代的发展核心,是财富形成的首要条件
期刊
温州是中国民营经济最发达的区域之一,敢为天下先的温州人,经过多年的努力,终于走出了一条独特的经济发展路子,人称“温州模式”。温州现已形成两个突出的优势,一是产业优势。温州是以轻工产品为主业的一个工业新型城市。全市2300多亿元的产值当中,轻工产品就占了三分之二;二是温州人优势。温州人现在有160万人在全国各地经商,有50多万人在全世界闯荡市场,建有40万个左右的营销点。  一、重建“信用温州”的原
期刊
摘 要:企业是生产生活中最常见的组织形式也是主要组织形式,然而现代的公司制以及现代企业制度并不是一蹴而就的,企业制度的产生和发展经历了漫长而曲折的过程,那么到底是什么在主导企业一步一步的演变?本文主要从交易费用的角度,分析企业制度产生的原因及发展的动力。  关键词:企业制度 交易费用理论 性质演变  一、企业制度的历史演变  1.业主制的诞生。人类社会最早产生的生产组织形式是以血缘关系聚集在一起的
期刊