论文部分内容阅读
【摘要】探讨对应分析方法在市政建设特征分析中的应用,以及运用对应分析时应注意的几个问题。用对应分析方法对全国全国31个省市的市政基础设施建设状况情况进行分析。从对应分析的因子负荷图中可以看出城市建设水平和地区的经济发展水平具有一定的对应关系。
【关键词】对应分析 市政建设 方法特征
市政基础设施建设是城市赖以生存和发展的根本,是实现城市功能定位和提高城市综合竞争力的重要基础。城市基础设施的建设和完善程度决定了一个城市的现代化水平,进而影响到这个城市的影响力和竞争力等各个方面。研究国内城市发展和建设水平,可以发现城市建设水平和地区的经济发展水平具有一定的对应关系,而且,处在不同经济发展阶段的地区,其城市基础设施建设的重点也有所不同。通过评价城市基础设施的建设水平,可以有针对性地提出今后进一步建设的建议。
一、对应分析的主要特点
对应分析又称为相应分析,也称R—Q分析,是在因子分子基础发展起来的一种多元统计分析方法。它主要通过分析定性变量构成的列联表来揭示变量之间的关系。在因子分析中人们通常只是分析原始变量的因子结构,找出决定原始变量的公共因子,从而使问题的分析简化和清晰。这种研究对象是变量的因子分析称为R型因子分析。但是对于有些问题来说,我们还需要研究样品的结构,若对于样品进行因子分析,称为Q型因子分析。当我们对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时做到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
二、实例
采用spss软件对全国31个省市的市政建设状况进行对应分析,数据来源于《中国统计年鉴2010》.共纪录了31个省、市、自治区当年的城市市政工程建设状况,具体有如下6个指标:
road:年末实有道路长度;area:年末实有道路面积;bridge:城市桥梁数;
under:城市下水道长度;water:城市污水处理能力;lamp:城市路灯数。
考察各省市城市设施水平的建设情况差异,特别是各地区在这6个指标上分别存在着哪些优势和不足之处。
(一)数据处理
对应分析的第一步是进行数据的标准化,将数据转换为代表行、列变量问类别联系的数据阵。由于本例采用的数据不是频数,不存在行列合计频数,所以不能像交叉表那样基于无效假设计算标准化残差,此处需要使用欧式距离来表示关联程度。首先需要考虑应当采用何种距离标准化方法。显然,6项指标的均数大不相同,而这并不是我们所要关心的,同时它们的量纲也相差较大,最大、最小值的倍数在数十到上千不等;另一方面,各省市發展水平的差异是我们希望考察的内容,即上海的平均发展水平是否高于北京,诸如此类。因此,本例中使用Column Totals are Equalized and Column Means Removed这一标化方法,它可以消除各指标均数和量纲不同的影响,同时又保留了地区发展水平的差异。
(二)数据分析结果
运用spss对原始数据进行分析得到对应分析的最终汇总结果,如表1。
有表1中的数据我们可以看到,前两个维度工携带了总信息量的94.8%,因此可以利用二维空间进行分析结果的解释。
表1 Summary
把31个省市样本和6个市政建设衡量指标绘制在一张二维平面图上,并将分布相当集中的地级市样本和指标归为一类,如图1所示:
位置临近的指标点表示他们密切相关,我们首先来看指标的分布,在指标散点中,6个散点并未完全分开,其中桥梁指标与其他5个指标远远分离,但是其他5个指标基本重叠,显然从常识看道路长度,道路面积,下水道长度,污水处理和路灯数着5个指标是紧密相关的。
临近的样本点则表示它们的发展状况相似,根据这种分布,可以将31个省市分类,然后结合指标的分布来分析全国各地区的市政建设状况。
根据原始数据和样本及指标在二维坐标图中的分布情况,31个省市和6各指标可以分为以下几类:
图1 基于均数的对应分析图
第一类:10(江苏),11(浙江),15(山东),19(广东)几个沿海发展较好省市,虽然这四个省被归为一类,但是从二维图中可以看到:江苏和浙江比较接近处于第一象限,而山东和广东则处于第四象限。这也与事实比较接近,山东和广东的发展较为相似,而其他两个较为相似。由二维图可以看到这四个省与桥梁指标放射方向基本一致,查看原始数据也可以发现这四个省的桥梁建设处于全国前四,其中江苏省散点桥梁散点的放射方向一致,在原始数据中江苏的桥梁指标也是最高的;在道路面积和道路道路长度指标中,广东、山东两省基本均处于全国前两名,这在图中则表现为它们正好位于相应两个指标散点的放射线上。另外,这四个省的散点与所有指标散点分布都较为接近,这说明这四个省在市政建设的各个指标上均处于较为领先水平,此结果从原始数据中也可以得到验证。
第二类:包括1(北京),2(天津),9(上海)三个发展水平较好的直辖市,这三个城市的散点与除桥梁以外的5个指标放射方向大体一致,这说明这三个城市的在这5个指标的建设状况都比较好。其中上海的污水处理水平也处于全国较为领先的地位,这在二维图中表现为两个散点位于相应的放射线上。
第三类:3(河北),6(辽宁),8(黑龙江),12(安徽),13(福建),16(河南),17(湖北),18(湖南),20(广西),23(四川)发展程度中等省市,由二维图中的位置与原始数据我们都可以发现这些省市的市政建设装况均处于中上水平。 第四类:其他则是欠发达省市,包括边远落后地区,这类散点位于最远离各个指标的左上方,市政建设状况较为落后。这一状况由原始数據可以得到验证。
三、小结
由以上实例分析我们可以看到,对应分析的结果比较简单直观,它最主要的结果就是对应分析图,非常容易理解,这也是对应分析比对数线性模型这些专业建模方法更受应用统计人员欢迎的原因。它不仅可以同时对指标和样本进行聚类,而且可以分析指标和样本的关系,这是因子分析和聚类分析都无法单独实现的。对应分析适于研究较多分类变量:多重对应分析可以将多个分类变量的关联在一张图形中表现出来,当变量数较多时,该优势非常明显。当分类变量的类别数越多时,对应分析图形化结果的优势就越明显。它省去了复杂的建模和检验过程,可以直接观察到最为主要的关联特征。
对应分析也存在自身的劣势:首先,对应分析不能进行具体联系的检验:对应分析在本质上仍然只是一种统计描述方法,他无法对所观察到的变量类别间的联系进行检验,从而在统计上加以确认。因此,对应分析在结果解释上要小心,特别是多重对应分析,事先一定要采用卡方检验等统计方法进行预分析,筛除掉实际上无联系的变量。在得到图形结果后也要将图形和原始数据反复对照,以确保结论的正确性。其次,无法自动判断最佳维度数:对应分析只能根据研究者指定的数量进行相应维度的提取,而不能自动判断最合适的维度数。最后,分析结果对极端值敏感:由于对应分析的第一步是对数据进行标准化变换,对于罕见类别或者小样本,变换后非常容易出现极端值,这使得分析结果严重受这些类别的影响。
参考文献
[1]中国统计年鉴2011,国家统计局出版
[2]何晓群.多元统计分析.中国人民大学出版社.2008(7):242-263.
[3]张文彤.SPSS统计分析高级教程.高等教育出版社.2004(15):299-303.
[4]许人杰.广东省区域经济发展的对应分析[A].中国商界.2010年第七期.
[5]毛腾飞.中国城市基础设施建设投融资模式创新研究[M].北京:中国社会科学出版社,2007:5-8.
[6]段娟,文余源.中国城市化进程中基础设施建设和管理的问题与对策探讨[J].云南地理环境研究,2007(1).
作者简介:霍炜红(1986-),女,河北人,经济学硕士,研究方向:数据挖掘与抽样统计。
【关键词】对应分析 市政建设 方法特征
市政基础设施建设是城市赖以生存和发展的根本,是实现城市功能定位和提高城市综合竞争力的重要基础。城市基础设施的建设和完善程度决定了一个城市的现代化水平,进而影响到这个城市的影响力和竞争力等各个方面。研究国内城市发展和建设水平,可以发现城市建设水平和地区的经济发展水平具有一定的对应关系,而且,处在不同经济发展阶段的地区,其城市基础设施建设的重点也有所不同。通过评价城市基础设施的建设水平,可以有针对性地提出今后进一步建设的建议。
一、对应分析的主要特点
对应分析又称为相应分析,也称R—Q分析,是在因子分子基础发展起来的一种多元统计分析方法。它主要通过分析定性变量构成的列联表来揭示变量之间的关系。在因子分析中人们通常只是分析原始变量的因子结构,找出决定原始变量的公共因子,从而使问题的分析简化和清晰。这种研究对象是变量的因子分析称为R型因子分析。但是对于有些问题来说,我们还需要研究样品的结构,若对于样品进行因子分析,称为Q型因子分析。当我们对同一观测数据施加R和Q型因子分析,并分别保留两个公共因子,则是对应分析的初步。对应分析的基本思想是将一个联列表的行和列中各元素的比例结构以点的形式在较低维的空间中表示出来。它最大特点是能把众多的样品和众多的变量同时做到同一张图解上,将样品的大类及其属性在图上直观而又明了地表示出来,具有直观性。另外,它还省去了因子选择和因子轴旋转等复杂的数学运算及中间过程,可以从因子载荷图上对样品进行直观的分类,而且能够指示分类的主要参数(主因子)以及分类的依据,是一种直观、简单、方便的多元统计方法。
二、实例
采用spss软件对全国31个省市的市政建设状况进行对应分析,数据来源于《中国统计年鉴2010》.共纪录了31个省、市、自治区当年的城市市政工程建设状况,具体有如下6个指标:
road:年末实有道路长度;area:年末实有道路面积;bridge:城市桥梁数;
under:城市下水道长度;water:城市污水处理能力;lamp:城市路灯数。
考察各省市城市设施水平的建设情况差异,特别是各地区在这6个指标上分别存在着哪些优势和不足之处。
(一)数据处理
对应分析的第一步是进行数据的标准化,将数据转换为代表行、列变量问类别联系的数据阵。由于本例采用的数据不是频数,不存在行列合计频数,所以不能像交叉表那样基于无效假设计算标准化残差,此处需要使用欧式距离来表示关联程度。首先需要考虑应当采用何种距离标准化方法。显然,6项指标的均数大不相同,而这并不是我们所要关心的,同时它们的量纲也相差较大,最大、最小值的倍数在数十到上千不等;另一方面,各省市發展水平的差异是我们希望考察的内容,即上海的平均发展水平是否高于北京,诸如此类。因此,本例中使用Column Totals are Equalized and Column Means Removed这一标化方法,它可以消除各指标均数和量纲不同的影响,同时又保留了地区发展水平的差异。
(二)数据分析结果
运用spss对原始数据进行分析得到对应分析的最终汇总结果,如表1。
有表1中的数据我们可以看到,前两个维度工携带了总信息量的94.8%,因此可以利用二维空间进行分析结果的解释。
表1 Summary
把31个省市样本和6个市政建设衡量指标绘制在一张二维平面图上,并将分布相当集中的地级市样本和指标归为一类,如图1所示:
位置临近的指标点表示他们密切相关,我们首先来看指标的分布,在指标散点中,6个散点并未完全分开,其中桥梁指标与其他5个指标远远分离,但是其他5个指标基本重叠,显然从常识看道路长度,道路面积,下水道长度,污水处理和路灯数着5个指标是紧密相关的。
临近的样本点则表示它们的发展状况相似,根据这种分布,可以将31个省市分类,然后结合指标的分布来分析全国各地区的市政建设状况。
根据原始数据和样本及指标在二维坐标图中的分布情况,31个省市和6各指标可以分为以下几类:
图1 基于均数的对应分析图
第一类:10(江苏),11(浙江),15(山东),19(广东)几个沿海发展较好省市,虽然这四个省被归为一类,但是从二维图中可以看到:江苏和浙江比较接近处于第一象限,而山东和广东则处于第四象限。这也与事实比较接近,山东和广东的发展较为相似,而其他两个较为相似。由二维图可以看到这四个省与桥梁指标放射方向基本一致,查看原始数据也可以发现这四个省的桥梁建设处于全国前四,其中江苏省散点桥梁散点的放射方向一致,在原始数据中江苏的桥梁指标也是最高的;在道路面积和道路道路长度指标中,广东、山东两省基本均处于全国前两名,这在图中则表现为它们正好位于相应两个指标散点的放射线上。另外,这四个省的散点与所有指标散点分布都较为接近,这说明这四个省在市政建设的各个指标上均处于较为领先水平,此结果从原始数据中也可以得到验证。
第二类:包括1(北京),2(天津),9(上海)三个发展水平较好的直辖市,这三个城市的散点与除桥梁以外的5个指标放射方向大体一致,这说明这三个城市的在这5个指标的建设状况都比较好。其中上海的污水处理水平也处于全国较为领先的地位,这在二维图中表现为两个散点位于相应的放射线上。
第三类:3(河北),6(辽宁),8(黑龙江),12(安徽),13(福建),16(河南),17(湖北),18(湖南),20(广西),23(四川)发展程度中等省市,由二维图中的位置与原始数据我们都可以发现这些省市的市政建设装况均处于中上水平。 第四类:其他则是欠发达省市,包括边远落后地区,这类散点位于最远离各个指标的左上方,市政建设状况较为落后。这一状况由原始数據可以得到验证。
三、小结
由以上实例分析我们可以看到,对应分析的结果比较简单直观,它最主要的结果就是对应分析图,非常容易理解,这也是对应分析比对数线性模型这些专业建模方法更受应用统计人员欢迎的原因。它不仅可以同时对指标和样本进行聚类,而且可以分析指标和样本的关系,这是因子分析和聚类分析都无法单独实现的。对应分析适于研究较多分类变量:多重对应分析可以将多个分类变量的关联在一张图形中表现出来,当变量数较多时,该优势非常明显。当分类变量的类别数越多时,对应分析图形化结果的优势就越明显。它省去了复杂的建模和检验过程,可以直接观察到最为主要的关联特征。
对应分析也存在自身的劣势:首先,对应分析不能进行具体联系的检验:对应分析在本质上仍然只是一种统计描述方法,他无法对所观察到的变量类别间的联系进行检验,从而在统计上加以确认。因此,对应分析在结果解释上要小心,特别是多重对应分析,事先一定要采用卡方检验等统计方法进行预分析,筛除掉实际上无联系的变量。在得到图形结果后也要将图形和原始数据反复对照,以确保结论的正确性。其次,无法自动判断最佳维度数:对应分析只能根据研究者指定的数量进行相应维度的提取,而不能自动判断最合适的维度数。最后,分析结果对极端值敏感:由于对应分析的第一步是对数据进行标准化变换,对于罕见类别或者小样本,变换后非常容易出现极端值,这使得分析结果严重受这些类别的影响。
参考文献
[1]中国统计年鉴2011,国家统计局出版
[2]何晓群.多元统计分析.中国人民大学出版社.2008(7):242-263.
[3]张文彤.SPSS统计分析高级教程.高等教育出版社.2004(15):299-303.
[4]许人杰.广东省区域经济发展的对应分析[A].中国商界.2010年第七期.
[5]毛腾飞.中国城市基础设施建设投融资模式创新研究[M].北京:中国社会科学出版社,2007:5-8.
[6]段娟,文余源.中国城市化进程中基础设施建设和管理的问题与对策探讨[J].云南地理环境研究,2007(1).
作者简介:霍炜红(1986-),女,河北人,经济学硕士,研究方向:数据挖掘与抽样统计。