论文部分内容阅读
摘 要:利用2010年人口普查数据对当时全国31个省、直辖市、自治区进行聚类分析将其结果与2000年全国人口普查数据聚类分析的结果进行比较,结果表明,全国人民文化层次都有所提高,尤其是西部地区相当显著.
关键词:聚类分析;文化程度 ;SAS
一、聚类分析概述
聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类.距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:
其中 表示第 个样i品的第 K个指标的观测值, 表示第 j个样品的第K 个指标的观测值, 为第 i个样品与第 j个样品之间的欧氏距离.若 越小,那么第 i与 j两个样品之间的性质就越接近.性质接近的样品就可以划为一类.
当确定了样品之间的距离之后,就要对样品进行分类.分类的方法很多,本文只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法.首先将 n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止.分类结果可以画成一张直观的聚类谱系图.应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标;
②收集数据;
③对数据进行变换处理(如标准化或规格化);
④使各个样品自成一类,即 n个样品一共有n 类;
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果.
二、应用
为了了解近年来我国人口的文化程度状况,现利用2010年全国普查数据对当时全国31个省、直辖市、自治区进行聚类分析.分析选取了三个指标:①大专以上文化程度(含大专)的人口占总人口的比重(DZBZ);②中学文化程度(含中专)的人口占总人口的比重(ZXBZ);③小学及以下人口占总人口的比重XXBZ),分别用来反映较高、中等、较低文化程度人口的状况.
运用SAS做聚类分析,程序如下:
DATA CULTURE;
INPUT AREA $ XXBZ ZXBZ DZBZ @@;
CARDS;
北京 0.15885 0.52616 0.31499
上海 0.20621 0.57427 0.21952
天津 0.23716 0.58804 0.1748
重庆 0.45162 0.46195 0.08643
黑龙江 0.30861 0.60072 0.09067
吉林 0.31175 0.58935 0.0989
辽宁 0.27919 0.60116 0.11965
内蒙古 0.35449 0.54343 0.10208
河北 0.35595 0.57109 0.07296
新疆 0.41687 0.47678 0.10635
甘肃 0.4858 0.439 0.0752
青海 0.55583 0.35801 0.08616
陕西 0.33536 0.55908 0.10556
宁夏 0.44743 0.46105 0.09152
河南 0.3793 0.55672 0.06398
山东 0.3724 0.54066 0.08694
山西 0.3042 0.60859 0.08721
安徽 0.44515 0.48788 0.06697
湖北 0.34247 0.5622 0.09533
湖南 0.37457 0.54948 0.07595
江苏 0.34372 0.54813 0.10815
四川 0.47189 0.46136 0.06675
贵州 0.57637 0.37071 0.05292
云南 0.58366 0.35856 0.05778
广西 0.44226 0.49797 0.05977
西藏 0.77279 0.17214 0.05507
浙江 0.40427 0.50243 0.0933
江西 0.4316 0.49983 0.06857
广东 0.31801 0.59985 0.08214
福建 0.39877 0.51762 0.08361
海南 0.35825 0.56407 0.07768
;
PROC ACECLUS OUT=ACE P=0.04 NOPRINT;
PROC CLUSTER DATA =ACE OUTTREE=TREE METHOD=MEDIAN CCC PSEUDO;
ID AREA;
RUN;
PROC TREE DATA=TREE OUT=NEW RAPHICS HAXIS=AXIAL HORIZONTAL;
RUN;
程序输出主要结果见下图:
图2 : 2010年31省、直辖市、自治区聚类谱系图
把31个省、直辖市、自治区文化程度分为四类,并计算出各类文化程度平均比重(见表1).
表1 2010年31省、直辖市、自治区的分类及平均文化比重
由表1可见第一二类属于经济,文化发达地区,第三类属于文化发展一般的地区, 中等发达地区,第四类属于经济,文化落后地区 ,中等发达地区.用2000年的全国人口普查数据同样的方法计算可得如下结果(见表2)
表2 2000年31省、直辖市、自治区的分类及平均文化比重
图4:2000年31省、直辖市、自治区聚类谱系图
比较表1与表2的分类状况与各类的平均文化程度可知:经过10年的发展,全国各地区的文化程度都有所提高.同样是分成四类,北京,上海始终在经济文化高度发达的一类中;文化发展第二类和第三类同十年前相比已有了很显著的提高;西藏文化程度调查在2010虽然依然是处于最后一类中,但与2000相比已经有了很明显的提高特别是体现在中学这个阶段.
三、结语
通过对两次人口普查数据的聚类结果对照比较可以看到, 中国居民的全社会受教育程度明显提升,人口的素质在提高。2000-2010年,贵州、云南、青海、贵州发展速度较快,经过10年的不懈努力,跨入了教育文化发展水平中等的行列. 其中安徽的中国科学技术大学是中国科学院所属的一所以前沿科学和高新技术为主、兼有以科技为背景的管理和人文学科的综合性全国重点大学.合肥工业大学是教育部直属高校,国家“211 工程”重点建设高校,是一所以工为主,工、理、文、经、管、法、教育等相结合的多科性全国重点大学.宁夏大学于2008年9月13日正式进入211,正是国家对该省教育取得长足进步的肯定.西藏大学是西藏规模最大的综合性大学,办学规模只有8000人. 教育部“一省一校”原则下的国家政策照顾,2008年12月16日,西藏大学进入“211工程”重点建设行列.这对西藏的高等教育来说是一个极大的利好。
关键词:聚类分析;文化程度 ;SAS
一、聚类分析概述
聚类分析的职能是建立一种分类方法,它是将一批样品或变量,按照它们在性质上的亲疏程度进行分类.距离的种类很多,其中欧式距离在聚类分析中用得最广,它的表达式如下:
其中 表示第 个样i品的第 K个指标的观测值, 表示第 j个样品的第K 个指标的观测值, 为第 i个样品与第 j个样品之间的欧氏距离.若 越小,那么第 i与 j两个样品之间的性质就越接近.性质接近的样品就可以划为一类.
当确定了样品之间的距离之后,就要对样品进行分类.分类的方法很多,本文只介绍系统聚类法,它是聚类分析中应用最广泛的一种方法.首先将 n个样品每个自成一类,然后每次将具有最小距离的两类合并成一类,合并后重新计算类与类之间的距离,这个过程一直持续到所有样品归为一类为止.分类结果可以画成一张直观的聚类谱系图.应用系统聚类法进行聚类分析的步骤如下:
①确定待分类的样品的指标;
②收集数据;
③对数据进行变换处理(如标准化或规格化);
④使各个样品自成一类,即 n个样品一共有n 类;
⑤计算各类之间的距离,得到一个距离对称矩阵,将距离最近的两个类并成一类;
⑥并类后,如果类的个数大于1,那么重新计算各类之间的距离,继续并类,直至所有样品归为一类为止;
⑦最后绘制系统聚类谱系图,按不同的分类标准或不同的分类原则,得出不同的分类结果.
二、应用
为了了解近年来我国人口的文化程度状况,现利用2010年全国普查数据对当时全国31个省、直辖市、自治区进行聚类分析.分析选取了三个指标:①大专以上文化程度(含大专)的人口占总人口的比重(DZBZ);②中学文化程度(含中专)的人口占总人口的比重(ZXBZ);③小学及以下人口占总人口的比重XXBZ),分别用来反映较高、中等、较低文化程度人口的状况.
运用SAS做聚类分析,程序如下:
DATA CULTURE;
INPUT AREA $ XXBZ ZXBZ DZBZ @@;
CARDS;
北京 0.15885 0.52616 0.31499
上海 0.20621 0.57427 0.21952
天津 0.23716 0.58804 0.1748
重庆 0.45162 0.46195 0.08643
黑龙江 0.30861 0.60072 0.09067
吉林 0.31175 0.58935 0.0989
辽宁 0.27919 0.60116 0.11965
内蒙古 0.35449 0.54343 0.10208
河北 0.35595 0.57109 0.07296
新疆 0.41687 0.47678 0.10635
甘肃 0.4858 0.439 0.0752
青海 0.55583 0.35801 0.08616
陕西 0.33536 0.55908 0.10556
宁夏 0.44743 0.46105 0.09152
河南 0.3793 0.55672 0.06398
山东 0.3724 0.54066 0.08694
山西 0.3042 0.60859 0.08721
安徽 0.44515 0.48788 0.06697
湖北 0.34247 0.5622 0.09533
湖南 0.37457 0.54948 0.07595
江苏 0.34372 0.54813 0.10815
四川 0.47189 0.46136 0.06675
贵州 0.57637 0.37071 0.05292
云南 0.58366 0.35856 0.05778
广西 0.44226 0.49797 0.05977
西藏 0.77279 0.17214 0.05507
浙江 0.40427 0.50243 0.0933
江西 0.4316 0.49983 0.06857
广东 0.31801 0.59985 0.08214
福建 0.39877 0.51762 0.08361
海南 0.35825 0.56407 0.07768
;
PROC ACECLUS OUT=ACE P=0.04 NOPRINT;
PROC CLUSTER DATA =ACE OUTTREE=TREE METHOD=MEDIAN CCC PSEUDO;
ID AREA;
RUN;
PROC TREE DATA=TREE OUT=NEW RAPHICS HAXIS=AXIAL HORIZONTAL;
RUN;
程序输出主要结果见下图:
图2 : 2010年31省、直辖市、自治区聚类谱系图
把31个省、直辖市、自治区文化程度分为四类,并计算出各类文化程度平均比重(见表1).
表1 2010年31省、直辖市、自治区的分类及平均文化比重
由表1可见第一二类属于经济,文化发达地区,第三类属于文化发展一般的地区, 中等发达地区,第四类属于经济,文化落后地区 ,中等发达地区.用2000年的全国人口普查数据同样的方法计算可得如下结果(见表2)
表2 2000年31省、直辖市、自治区的分类及平均文化比重
图4:2000年31省、直辖市、自治区聚类谱系图
比较表1与表2的分类状况与各类的平均文化程度可知:经过10年的发展,全国各地区的文化程度都有所提高.同样是分成四类,北京,上海始终在经济文化高度发达的一类中;文化发展第二类和第三类同十年前相比已有了很显著的提高;西藏文化程度调查在2010虽然依然是处于最后一类中,但与2000相比已经有了很明显的提高特别是体现在中学这个阶段.
三、结语
通过对两次人口普查数据的聚类结果对照比较可以看到, 中国居民的全社会受教育程度明显提升,人口的素质在提高。2000-2010年,贵州、云南、青海、贵州发展速度较快,经过10年的不懈努力,跨入了教育文化发展水平中等的行列. 其中安徽的中国科学技术大学是中国科学院所属的一所以前沿科学和高新技术为主、兼有以科技为背景的管理和人文学科的综合性全国重点大学.合肥工业大学是教育部直属高校,国家“211 工程”重点建设高校,是一所以工为主,工、理、文、经、管、法、教育等相结合的多科性全国重点大学.宁夏大学于2008年9月13日正式进入211,正是国家对该省教育取得长足进步的肯定.西藏大学是西藏规模最大的综合性大学,办学规模只有8000人. 教育部“一省一校”原则下的国家政策照顾,2008年12月16日,西藏大学进入“211工程”重点建设行列.这对西藏的高等教育来说是一个极大的利好。