论文部分内容阅读
针对传统主成分分析方法和熵值法的缺点,分别对数据进行均值亿和标准变换法的改进,然后分别采用改进的主成分分析法与改进的熵值法进行评价,经由KENDALL-W 一致性检验进行集成综合评价,若评价结果不一致,则采用因子分析法。结果发现主成分分析和熵值法得载的结果有偏差,最后用集成综合评价法对重庆市24个区的综合竞争力进行评价,集成综合评价法的结果最切合实际。
主成分分析 熵值法
KENDALL-W
因子分析 集成综合评价
引言
主成分分析法通过降维技术运用少数部分具有代表性的综合指标代表原始的多个变量指标的统计分析方法。徐雅静、汪远征[1]提出数据均值化的处理方法。童新安、许超[2]采用中心标准化进行无量纲化的处理。张圆[3]采用因子分析和聚类分析对全国31个省、市、自治区的经济发展进行分析,得出我国地区经济发展的层次分布情况。蔡若男、马丹[4]采用因子分析法提取主成分因子,得出主成分得分,然后对黑龙江省各城市综合竞争力进行排序,利用聚类分析对进行分类。杨光[5]采用综合经济效益指数法对江苏各地区的经济发展程度比较分析。基于以上研究提出先对原始数据进行改进,然后采取改进的主成分分析法、熵值法对各个对象进行评价。对使用两种方法得到的结果作一致性检验,若通过一致性检验就将两种结果进行集成评价。最后运用改进的集成综合评价法对重庆市24个地区县的经济综合发展程度进行实证分析。
数据来源及研究方法
采用《重庆市统计年鉴2016》的数据分析重庆市24个区的综合竞争力。首先选取8个代表性指标,x1-地区生产总值,x2-人均生产总值,X3-第三产业生产总值,X4-公共财政收入,x5-居民人均可支收入,X6-城镇非私营单位就业人员年平均工资,X7-社会消费品零售总额,x8-全社会固定资产投资。
(1)主成分的改进
主成分分析的关键是依据协方差矩阵求出主成分。但是协方差矩阵容易受原始数据的量纲和数量级的影响。常用方法是对原始数据作标准化处理,但该方法在消除原始数据指标量纲和数量级影响的同时,也抹杀了反映各原始数据指标之间变异程度的差异信息,不能准确的反映原始数据所包含的全部信息。而“均值化”后得到的协方差矩阵能够完全反映原始数据指标所包含的全部信息,因此,可以把“均值化”作为一种新的无量纲化方法。假设V=(vij)n×p中各项指标的相关系数为,其中rij为原始数据各项指标之间的相关系数。由rij=rij可知,原始数据经过均值化后各指标之间的相关系数不发牛改变,同时在相应的协方差阵中将反映全部的相关系数矩阵的信息。
(2)熵值法
假设有n个待评价的对象,每个待评价对象各有p项评价指标,所有评价指标的数据矩阵是x=(xij)n×p,对于某个指标j,如果所有待评价的对象的指标值xij之间的差距越大,则就表明该指标在综合评价中的效用越大;相反,其效用越小。 信息熵表达式是个状态值(共有n个状态),p(xi)是第i个状态值出现的概率。在数据矩阵X中,若指标值的差异程度越大,相应的信息熵就越小,则该指标的权重相对就越大;反之,该指标的权重相对就越小。因此可依据各指标的变异程度,借助信息熵[6],解出各指标的权重,为多指标的评价提供相关依据。所以熵值法计算步骤为计算出第i个样本在第j个指标上的比重
(三)熵值法的改进
在上面的计算过程中负数不能参于计算,所以应当对极值做一些变动。常用方法有功效系数法和标准化变换法。虽然功效系数法对负数和极端值做了相应的处理,但调节指标系数的权重由于受人为的影响,评价结果必然受主观性的影响。而标准化变换法不受任何主观因素的影响,属于完全意义上的客观赋权发法,因此可采用标准化变换法对熵值法进行改进。
由于不同的指标具有不同的量纲和单位,为了消除不同的量纲和单位的不同所带来的影响,首先对原始数据进行无量纲化的处理,即
,其中xij为同度量化的指标值,xj为第j项指标的平均值,σj为第j项指标的标准差[13]。为了消除负值的影响,将坐标进行平移,记xij=k+xij,其中K为坐标平移的幅度。
(3)集成综合评价
若按照某些性质由m个评价者对n个待评价对象进行排序或评估,若评价结果不相一致,那么它的随机性就比较大,实用性就比较小。为分析评判结果是否一致,需对m个不同排序结果进行一致性检验。原假设(H0):结果(对于不同评价者来说)是没有相关关系的或随机产生的;备择假设(H1):结果是多少一致的或相关的。协和系数可评价m个评价者对于n个待评价对象的评价结果是否具有一致性。先求协和系数W再对它进行检验,用来证明样本数据以最大可能性符合同一总体分布的差异程度。KENDALL-W协和系数法一致性检验用于检验m种评价方法对于n个待评价对象的评价结果间是否有一致性。KENDALL-W协和系
数为:
式中m是评价方法的数量,n是待评价对象的数量;R是各待评价对象的等级之和。形的检验:Ho:m种评价方法的结果无一致性;H1:m种评价方法的结果有一致性;检验统计量x2=m(n-1)w在大样本情况下近似服从于x2(n-1)。当x2≥X2时,认为m种评价方法的评价结果间具有一致性,反之不具有一致性。用KENDALL-W协和系数对熵值法和主成分分析法作综合评价时结果进行一致性检验,如果两种结果具有一致性,就说明这两种方法的评价结果基本上一致,经由改进的主成分分析法得到的第i个评价对象的评价数值记为fi,经由改进的熵值法得到的評价数值记为vi,则建立起第i评价对象的综合评价得分Yi=Tfi+UviY=Tfi+Uvi,其中T、U是权重,T+U=1。根据评价对象的最终评价得分大小进行排序,即可得到最终的评价结果。
重庆24区城市发展差异的实证分析 首先利用均值化的主成分和标准变换法的熵值法分别对重庆24个区的综合竞争力进行评价,根据其主成分得分和熵值法得分进行排名,部分结果如表l所示:
从表1中可以看出,部分城市的排名不同,其中,万州区、南岸区、大渡口区、綦江区的排名差别较大。不能比较两种方法的效果,对各区的综合竞争力也不能进行很好的评价。
下面我們利用均值化的主成分分析法和标准变换法的熵值法进行综合评价,并运用Kendall-W协和系数进行一致性检验,计算W为0.989565217,检验统计量x2= 45.52>x20.05(23)= 35.17说明在95%的置信度下两种评价结果是一致的,可进行集成综合评价,文中T、U分别取值0.5,根据综合得分进行排名,部分结果如下:
从原始数据中观察,南岸区在人均生产总值、公共财政收入、居民人均可支收入、城镇非私营单位就业人员年平均工资、社会消费品零售总额方面比万州区要高,仅在地区生产总值、第三产业生产总值、全社会固定资产投资方面略低,说明南岸区的城市综合竞争力要高于万州区。沙坪坝区在人均生产总值、第三产业生产总值、居民人均可支收入、城镇非私营单位就业人员年平均工资、社会消费品零售总额方面比万州区要高,仅在地区生产总值、公共财政收入、全社会固定资产投资比万州区稍低,说明沙坪坝区的综合竞争力要比万州区高。铜梁区在地区生产总值、社会消费品零售总额方面要比大渡口区高一倍左右,在全社会固定资产投资方面是大渡口区的两倍以上,其他方面相差很小,说明铜梁区的城市综合竞争力比大渡口区的大。综上所述,集成综合评价法得到的结果更切合实际,从实际数据出发也验证了这一结论。
[1]徐雅静,汪远征.主成分分析应用方法的改进[J].数学实践与认识,2006,6(36):69-71.
[2]童新安,许超.基于非线性主成分和聚类分析的综合评价方法[J].统计与信息论坛,2008,23(2):37-46.
[3]张圆.地区经济发展差异的聚类统计分析[J].统计与决策,2013,(24):112-114.
[4]蔡若男,马丹.黑龙江省各城市综合竞争力统计分析[J].齐齐哈尔大学学报,2013,29(02):81-83.
[5]杨光.江苏省各地区经济发展程度比较分析[J].统计与咨询,2010,(03):35.
[6]孙刘平,钱吴永.基于主成分分析法的综合评价方法的改进[J].数学实践与认识.2009,99(39):17-18.
主成分分析 熵值法
KENDALL-W
因子分析 集成综合评价
引言
主成分分析法通过降维技术运用少数部分具有代表性的综合指标代表原始的多个变量指标的统计分析方法。徐雅静、汪远征[1]提出数据均值化的处理方法。童新安、许超[2]采用中心标准化进行无量纲化的处理。张圆[3]采用因子分析和聚类分析对全国31个省、市、自治区的经济发展进行分析,得出我国地区经济发展的层次分布情况。蔡若男、马丹[4]采用因子分析法提取主成分因子,得出主成分得分,然后对黑龙江省各城市综合竞争力进行排序,利用聚类分析对进行分类。杨光[5]采用综合经济效益指数法对江苏各地区的经济发展程度比较分析。基于以上研究提出先对原始数据进行改进,然后采取改进的主成分分析法、熵值法对各个对象进行评价。对使用两种方法得到的结果作一致性检验,若通过一致性检验就将两种结果进行集成评价。最后运用改进的集成综合评价法对重庆市24个地区县的经济综合发展程度进行实证分析。
数据来源及研究方法
采用《重庆市统计年鉴2016》的数据分析重庆市24个区的综合竞争力。首先选取8个代表性指标,x1-地区生产总值,x2-人均生产总值,X3-第三产业生产总值,X4-公共财政收入,x5-居民人均可支收入,X6-城镇非私营单位就业人员年平均工资,X7-社会消费品零售总额,x8-全社会固定资产投资。
(1)主成分的改进
主成分分析的关键是依据协方差矩阵求出主成分。但是协方差矩阵容易受原始数据的量纲和数量级的影响。常用方法是对原始数据作标准化处理,但该方法在消除原始数据指标量纲和数量级影响的同时,也抹杀了反映各原始数据指标之间变异程度的差异信息,不能准确的反映原始数据所包含的全部信息。而“均值化”后得到的协方差矩阵能够完全反映原始数据指标所包含的全部信息,因此,可以把“均值化”作为一种新的无量纲化方法。假设V=(vij)n×p中各项指标的相关系数为,其中rij为原始数据各项指标之间的相关系数。由rij=rij可知,原始数据经过均值化后各指标之间的相关系数不发牛改变,同时在相应的协方差阵中将反映全部的相关系数矩阵的信息。
(2)熵值法
假设有n个待评价的对象,每个待评价对象各有p项评价指标,所有评价指标的数据矩阵是x=(xij)n×p,对于某个指标j,如果所有待评价的对象的指标值xij之间的差距越大,则就表明该指标在综合评价中的效用越大;相反,其效用越小。 信息熵表达式是个状态值(共有n个状态),p(xi)是第i个状态值出现的概率。在数据矩阵X中,若指标值的差异程度越大,相应的信息熵就越小,则该指标的权重相对就越大;反之,该指标的权重相对就越小。因此可依据各指标的变异程度,借助信息熵[6],解出各指标的权重,为多指标的评价提供相关依据。所以熵值法计算步骤为计算出第i个样本在第j个指标上的比重
(三)熵值法的改进
在上面的计算过程中负数不能参于计算,所以应当对极值做一些变动。常用方法有功效系数法和标准化变换法。虽然功效系数法对负数和极端值做了相应的处理,但调节指标系数的权重由于受人为的影响,评价结果必然受主观性的影响。而标准化变换法不受任何主观因素的影响,属于完全意义上的客观赋权发法,因此可采用标准化变换法对熵值法进行改进。
由于不同的指标具有不同的量纲和单位,为了消除不同的量纲和单位的不同所带来的影响,首先对原始数据进行无量纲化的处理,即
,其中xij为同度量化的指标值,xj为第j项指标的平均值,σj为第j项指标的标准差[13]。为了消除负值的影响,将坐标进行平移,记xij=k+xij,其中K为坐标平移的幅度。
(3)集成综合评价
若按照某些性质由m个评价者对n个待评价对象进行排序或评估,若评价结果不相一致,那么它的随机性就比较大,实用性就比较小。为分析评判结果是否一致,需对m个不同排序结果进行一致性检验。原假设(H0):结果(对于不同评价者来说)是没有相关关系的或随机产生的;备择假设(H1):结果是多少一致的或相关的。协和系数可评价m个评价者对于n个待评价对象的评价结果是否具有一致性。先求协和系数W再对它进行检验,用来证明样本数据以最大可能性符合同一总体分布的差异程度。KENDALL-W协和系数法一致性检验用于检验m种评价方法对于n个待评价对象的评价结果间是否有一致性。KENDALL-W协和系
数为:
式中m是评价方法的数量,n是待评价对象的数量;R是各待评价对象的等级之和。形的检验:Ho:m种评价方法的结果无一致性;H1:m种评价方法的结果有一致性;检验统计量x2=m(n-1)w在大样本情况下近似服从于x2(n-1)。当x2≥X2时,认为m种评价方法的评价结果间具有一致性,反之不具有一致性。用KENDALL-W协和系数对熵值法和主成分分析法作综合评价时结果进行一致性检验,如果两种结果具有一致性,就说明这两种方法的评价结果基本上一致,经由改进的主成分分析法得到的第i个评价对象的评价数值记为fi,经由改进的熵值法得到的評价数值记为vi,则建立起第i评价对象的综合评价得分Yi=Tfi+UviY=Tfi+Uvi,其中T、U是权重,T+U=1。根据评价对象的最终评价得分大小进行排序,即可得到最终的评价结果。
重庆24区城市发展差异的实证分析 首先利用均值化的主成分和标准变换法的熵值法分别对重庆24个区的综合竞争力进行评价,根据其主成分得分和熵值法得分进行排名,部分结果如表l所示:
从表1中可以看出,部分城市的排名不同,其中,万州区、南岸区、大渡口区、綦江区的排名差别较大。不能比较两种方法的效果,对各区的综合竞争力也不能进行很好的评价。
下面我們利用均值化的主成分分析法和标准变换法的熵值法进行综合评价,并运用Kendall-W协和系数进行一致性检验,计算W为0.989565217,检验统计量x2= 45.52>x20.05(23)= 35.17说明在95%的置信度下两种评价结果是一致的,可进行集成综合评价,文中T、U分别取值0.5,根据综合得分进行排名,部分结果如下:
从原始数据中观察,南岸区在人均生产总值、公共财政收入、居民人均可支收入、城镇非私营单位就业人员年平均工资、社会消费品零售总额方面比万州区要高,仅在地区生产总值、第三产业生产总值、全社会固定资产投资方面略低,说明南岸区的城市综合竞争力要高于万州区。沙坪坝区在人均生产总值、第三产业生产总值、居民人均可支收入、城镇非私营单位就业人员年平均工资、社会消费品零售总额方面比万州区要高,仅在地区生产总值、公共财政收入、全社会固定资产投资比万州区稍低,说明沙坪坝区的综合竞争力要比万州区高。铜梁区在地区生产总值、社会消费品零售总额方面要比大渡口区高一倍左右,在全社会固定资产投资方面是大渡口区的两倍以上,其他方面相差很小,说明铜梁区的城市综合竞争力比大渡口区的大。综上所述,集成综合评价法得到的结果更切合实际,从实际数据出发也验证了这一结论。
[1]徐雅静,汪远征.主成分分析应用方法的改进[J].数学实践与认识,2006,6(36):69-71.
[2]童新安,许超.基于非线性主成分和聚类分析的综合评价方法[J].统计与信息论坛,2008,23(2):37-46.
[3]张圆.地区经济发展差异的聚类统计分析[J].统计与决策,2013,(24):112-114.
[4]蔡若男,马丹.黑龙江省各城市综合竞争力统计分析[J].齐齐哈尔大学学报,2013,29(02):81-83.
[5]杨光.江苏省各地区经济发展程度比较分析[J].统计与咨询,2010,(03):35.
[6]孙刘平,钱吴永.基于主成分分析法的综合评价方法的改进[J].数学实践与认识.2009,99(39):17-18.