论文部分内容阅读
【摘要】本文以重庆市某理工高校的某专业的学生毕业情况为例,根据成绩将学生进行相应的分类,寻找每一类学生的学习成绩的特征.学校可以根据学生的状况和社会的需求调整课程的设置,构建分层培养的一个动态系统,实现菜单式的培养模式,增加高等教育培养模式中的柔性。文中提出了一种基于多元统计分析的高校学生分层培养模型。根据学生的毕业情况,以在校期间成绩为指标,采用层次聚类方法把学生分为三类,得出三个大类学生的成绩特征。
【关键词】高校学生成绩;层次培养;多元统计方法;聚类
1 问题提出
随着教育工作,尤其是高等教育倍受广大民众、政府机构以及各级媒体的重视,现在很多的高校越来越重视学生成绩管理工作。这就要求学校更好的,更全面的了解学生当前的学习情况,还要了解学生将来成绩的某些趋势,以便学校更有效,更合理的对在校学生进行分层培养。本文提出用多元统计的分析方法对已毕业的某届学生历年成绩和毕业情况的相关数据进行较为全面的分析研究,进行聚类分析将学生分类研究学生成绩呈现的特征,深入研究高校学生真实的学习情况,并且通过分析,了解到学生的当前的学习定位和将来的发展倾向。
2 数据收集与处理
2.1数据来源
本文采用的数据来源于重庆某理工类高校数学专业学生本科期间四年的各科成绩和毕业设计完成情况,毕业实习表现情况以及就业单位情况。
2.2数据处理
原始数据包括40多个变量(即40多个课程),其中多个变量存在明显的相关性,还有各变量的权重是不同的。由于这些情况,在根据这些变量进行聚类时可能会使得运算结果失真。所以首先要对数据整理和一些必要的处理。处理如下:
(1)根据课程培养计划,课程划分为五大类,分别记为:A专业基础课,B专业平台课,C金融方向课,D计算方向课,E公共基础课。这样既能够有效地压缩指标数量还可以减弱各项变量的共线性。
(2)根据各个变量的不同的权重(即学分),将各科的成绩进行权重处理,得到新的成绩数据。
3聚类分析过程
3.1聚类软件、指标、类型的选择
聚类分析利用的软件是SPSS统计软件;分析对象是对学生(即样本)进行聚类;分析数据是五个指标,分别是专业基础课,专业平台课,金融方向课,计算方向课,公共基础课。利用SPSS层次聚类方法中的Q型聚类对学生进行分类分析,其中将平方欧式距离作为聚类分析的个体距离,平均组间连锁距离作为类间距离。
3.2聚类结果
通过SPSS软件,聚类运算得到层次聚类分析中的凝聚状态表(见表2)。
情况说明:
第一列说明聚类分析过程中第几步;第二、三列反映在该步分析中其中有哪两个样本(这里指学生)或是小类合成一大类;系数则表示距离,可能是样本间距离,也可能是小类之间的距离;第五、六列则说明参与该步聚类的两个元素是样本(即单个学生)还是小类(即已经合为一类的学生组),这里的0和自然数x分别表示样本和第x步新和成的小类;最后一列反映该次聚类的结果会出现在下面的哪一步。
凝聚状态表反映的是聚类分析的动态过程,能够通过表内容了解41个样本变量(即学生)是如何逐步的成和小类,再有若干小类合成最终的几个大类;而层次聚类分析中的类成员,则是反映聚类分析最终的结果,根据软件操作步骤,可以控制最后聚类的个数范围,本次聚类是将聚类个数控制在3至5个。
Q型聚类分析操作中,在”绘图”选项栏选定”树状图”,从而还可以得到更加直观、形象的聚类结果效果图——树状图(见图1)。
表1凝聚状态表
Table1condensed state table
* * * * * * H I E R A R C H I C A LC L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage(Between Groups)
Rescaled Distance Cluster Combine
图1 41个学生层次聚类分析结果
Table 141 students hierarchical cluster analysis results
3.3对聚类结果的分析和解释
经过聚类分析将该专业学生分了为3至5类,结合他们实际的毕业情况分析聚类的结果:
分析一:以5群列列情况下的聚类结果,此次聚类方法将41个学生分为了五大类如下表(见表2):
表 2 5群列情况下的聚类结果
Table 4 clustering results of 5 series case
类别 第一大类 第二大类 第三大类 第四大类 第五大类
学生代码 学生1 学生2 学生3 学生26 学生11 学生18
学生8 学生4 学生5 学生27
学生12 学生6 学生7 学生28
学生13 学生10 学生9 学生29
学生24 学生16 学生14 学生30
学生32 学生17 学生15 学生31
学生36 学生22 学生19 学生34
学生40 学生38 学生20 学生35
学生39 学生21 学生33
学生23 学生37
学生25 学生41
计数 8 9 22 1 1
实际的情况也根据他们的毕业情况划分了五类,结合原始数据分析,此次聚类结果,尽管也是将毕业生分出了五大类型,不过每一类的组合人数与实际情况有偏差。
分析二:上面对聚类5群列分类情况进行了分析,并将聚类结果数据与实际情况对比,尽管部分体现和反映了实际的毕业情况,但还明显看到聚类结果具有生偏差性和不准确性。现在再对聚类3群列分类情况进行分析,此次聚类方法将41个学生划分为了三大类如下表(见表3):
表 3 3群列情况下的聚类结果
Table5 clustering results of 3 series case
类别 第一大类 第二大类 第三大类
学生代码 学生1 学生2 学生3 学生26
学生8 学生4 学生5 学生27
学生11 学生6 学生7 学生28
学生12 学生10 学生9 学生29
学生13 学生16 学生14 学生30
学生18 学生17 学生15 学生31
学生24 学生22 学生19 学生34
学生32 学生38 学生20 学生35
学生36 学生39 学生21 学生33
学生40 学生23 学生37
学生25 学生41
计数 10 9 22
从表中看出,第一大类的分类情况与上面5群列聚类结果没有变动,人数一致,类成员有差异。将该类成员代码结合原始数据,可以看出该类基本上都是读研的学生,可以定义第二大类为读研学生群组。第二大类成员中大部分是个体或是待业肄业情况,通过原始数据观察,该类学生的成绩相对不好;从整体上分析此次聚类结果,基本上把读研学生,企业工作学生和个体创业肄业的学生划分为了三大类。
聚类并不是最后的目的,聚类是为了更好的了解每一类学生的成绩情况,所以下面要对每一类的数据进行描述分析。
分析一:对第一大类学生(即读研学生)的成绩描述分析,可以在表中(见表4)看出,专业基础课和公共基础课明显优异于其他学生;其中专业基础课是在所有课程中成绩最好的;而平台课和两门方向课相对于其他大类没有明显的优势,甚至低于第三大类的学生。
表4第一大类成绩描述表
Table 4performance description table of the first class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 7 90.00 96.00 93.1429 2.11570
专业平台课 7 79.00 82.00 80.4286 .97590
金融方向课 7 73.00 76.00 74.5714 .97590
计算方向课 7 72.00 74.00 73.2857 .75593
公共基础课 7 89.00 92.00 90.4286 .97590
有效的 N(列表状态) 7
分析二:对第二大类(即待业或肄业的学生)进行成绩描述分析,如下表(见表5),可以观察到,就情况相对较差的学生各科的成绩都不是很好,各科的成绩均值都在70分以下;其中平台课和计算方向课的平均分数甚至低于60分的及格标准。
表5 第二大类成绩描述表
Table7performance description table of the second class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 9 64.00 70.00 67.6667 1.93649
专业平台课 9 55.00 61.00 58.3333 2.34521
金融方向课 9 60.00 67.00 63.8889 2.66667
计算方向课 9 58.00 61.00 59.7778 1.20185
公共基础课 9 60.00 64.00 61.8889 1.45297
有效的 N(列表状态) 9
分析三:对第三大类的成绩进行描述分析,明显看出该类学生的各科成绩都处在中等水平(见表6)。除此之外,实际中进入央企或大型国企的学生的成绩并没有表现出成绩优势,说明影响因素还存在很多,比如个人的交际能力实践能力等成绩之外的影响因素。
表6 第三大类成绩描述表
Table 8performance description table of the third class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 23 78.00 85.00 81.3043 2.22455
专业平台课 23 74.00 80.00 77.6087 1.72519
金融方向课 23 69.00 77.00 72.3478 2.63902
计算方向课 23 70.00 76.00 73.3913 1.97114
公共基础课 23 78.00 83.00 80.5217 1.44189
有效的 N(列表状态) 23
4小结
将学生的成绩数据作为聚类指标变量,利用相应的统计软件对学生聚类分析,然后将聚类结果与实际毕业情况对比,本次聚类结果基本与实际相符。利用聚类的办法,高校可以根据学生在校期间各科目成绩呈现的特点,参照对聚类结果产生各类的成绩的描述分析,对每一个学生进行判别归类。这样可以为学校定向培养方案的制定提供较科学的依据;同时也可以为学生学习计划的制定提供参考;此外,还可以根据第二大类呈现的数据特征划出“就业困难预警线”,这样可以给予成绩处在第二大类或可能要滑进第二大类学生及时的警示,从而达到趋利避害的效果。
参考文献:
[1]邓秀勤.聚类分析在股票市场板块分析中的应用[J].数理统计与管理,1999.
[2]何晓群.多元统计分析[M].北京:中国人民大学出版社,2004.
[3]周兴华.基于主成分分析的中原城市群城市发展水平研究[J].重庆科技学院学报:社会科学版,2012(5).
[4]柯冰,钱省三.聚类分析和因子分析在股票研究中的应用[J].上海理工大学学报,2004.
[5]向东进.实用多元统计分析[M].北京:中国地质大学出版.2005.
[6]章文波,陈红艳.实用数据统计分析及SPSS 12.0应用[M].北京:人民邮电出版社,2006.
[7]余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003,4.
【关键词】高校学生成绩;层次培养;多元统计方法;聚类
1 问题提出
随着教育工作,尤其是高等教育倍受广大民众、政府机构以及各级媒体的重视,现在很多的高校越来越重视学生成绩管理工作。这就要求学校更好的,更全面的了解学生当前的学习情况,还要了解学生将来成绩的某些趋势,以便学校更有效,更合理的对在校学生进行分层培养。本文提出用多元统计的分析方法对已毕业的某届学生历年成绩和毕业情况的相关数据进行较为全面的分析研究,进行聚类分析将学生分类研究学生成绩呈现的特征,深入研究高校学生真实的学习情况,并且通过分析,了解到学生的当前的学习定位和将来的发展倾向。
2 数据收集与处理
2.1数据来源
本文采用的数据来源于重庆某理工类高校数学专业学生本科期间四年的各科成绩和毕业设计完成情况,毕业实习表现情况以及就业单位情况。
2.2数据处理
原始数据包括40多个变量(即40多个课程),其中多个变量存在明显的相关性,还有各变量的权重是不同的。由于这些情况,在根据这些变量进行聚类时可能会使得运算结果失真。所以首先要对数据整理和一些必要的处理。处理如下:
(1)根据课程培养计划,课程划分为五大类,分别记为:A专业基础课,B专业平台课,C金融方向课,D计算方向课,E公共基础课。这样既能够有效地压缩指标数量还可以减弱各项变量的共线性。
(2)根据各个变量的不同的权重(即学分),将各科的成绩进行权重处理,得到新的成绩数据。
3聚类分析过程
3.1聚类软件、指标、类型的选择
聚类分析利用的软件是SPSS统计软件;分析对象是对学生(即样本)进行聚类;分析数据是五个指标,分别是专业基础课,专业平台课,金融方向课,计算方向课,公共基础课。利用SPSS层次聚类方法中的Q型聚类对学生进行分类分析,其中将平方欧式距离作为聚类分析的个体距离,平均组间连锁距离作为类间距离。
3.2聚类结果
通过SPSS软件,聚类运算得到层次聚类分析中的凝聚状态表(见表2)。
情况说明:
第一列说明聚类分析过程中第几步;第二、三列反映在该步分析中其中有哪两个样本(这里指学生)或是小类合成一大类;系数则表示距离,可能是样本间距离,也可能是小类之间的距离;第五、六列则说明参与该步聚类的两个元素是样本(即单个学生)还是小类(即已经合为一类的学生组),这里的0和自然数x分别表示样本和第x步新和成的小类;最后一列反映该次聚类的结果会出现在下面的哪一步。
凝聚状态表反映的是聚类分析的动态过程,能够通过表内容了解41个样本变量(即学生)是如何逐步的成和小类,再有若干小类合成最终的几个大类;而层次聚类分析中的类成员,则是反映聚类分析最终的结果,根据软件操作步骤,可以控制最后聚类的个数范围,本次聚类是将聚类个数控制在3至5个。
Q型聚类分析操作中,在”绘图”选项栏选定”树状图”,从而还可以得到更加直观、形象的聚类结果效果图——树状图(见图1)。
表1凝聚状态表
Table1condensed state table
* * * * * * H I E R A R C H I C A LC L U S T E R A N A L Y S I S * * * * * *
Dendrogram using Average Linkage(Between Groups)
Rescaled Distance Cluster Combine
图1 41个学生层次聚类分析结果
Table 141 students hierarchical cluster analysis results
3.3对聚类结果的分析和解释
经过聚类分析将该专业学生分了为3至5类,结合他们实际的毕业情况分析聚类的结果:
分析一:以5群列列情况下的聚类结果,此次聚类方法将41个学生分为了五大类如下表(见表2):
表 2 5群列情况下的聚类结果
Table 4 clustering results of 5 series case
类别 第一大类 第二大类 第三大类 第四大类 第五大类
学生代码 学生1 学生2 学生3 学生26 学生11 学生18
学生8 学生4 学生5 学生27
学生12 学生6 学生7 学生28
学生13 学生10 学生9 学生29
学生24 学生16 学生14 学生30
学生32 学生17 学生15 学生31
学生36 学生22 学生19 学生34
学生40 学生38 学生20 学生35
学生39 学生21 学生33
学生23 学生37
学生25 学生41
计数 8 9 22 1 1
实际的情况也根据他们的毕业情况划分了五类,结合原始数据分析,此次聚类结果,尽管也是将毕业生分出了五大类型,不过每一类的组合人数与实际情况有偏差。
分析二:上面对聚类5群列分类情况进行了分析,并将聚类结果数据与实际情况对比,尽管部分体现和反映了实际的毕业情况,但还明显看到聚类结果具有生偏差性和不准确性。现在再对聚类3群列分类情况进行分析,此次聚类方法将41个学生划分为了三大类如下表(见表3):
表 3 3群列情况下的聚类结果
Table5 clustering results of 3 series case
类别 第一大类 第二大类 第三大类
学生代码 学生1 学生2 学生3 学生26
学生8 学生4 学生5 学生27
学生11 学生6 学生7 学生28
学生12 学生10 学生9 学生29
学生13 学生16 学生14 学生30
学生18 学生17 学生15 学生31
学生24 学生22 学生19 学生34
学生32 学生38 学生20 学生35
学生36 学生39 学生21 学生33
学生40 学生23 学生37
学生25 学生41
计数 10 9 22
从表中看出,第一大类的分类情况与上面5群列聚类结果没有变动,人数一致,类成员有差异。将该类成员代码结合原始数据,可以看出该类基本上都是读研的学生,可以定义第二大类为读研学生群组。第二大类成员中大部分是个体或是待业肄业情况,通过原始数据观察,该类学生的成绩相对不好;从整体上分析此次聚类结果,基本上把读研学生,企业工作学生和个体创业肄业的学生划分为了三大类。
聚类并不是最后的目的,聚类是为了更好的了解每一类学生的成绩情况,所以下面要对每一类的数据进行描述分析。
分析一:对第一大类学生(即读研学生)的成绩描述分析,可以在表中(见表4)看出,专业基础课和公共基础课明显优异于其他学生;其中专业基础课是在所有课程中成绩最好的;而平台课和两门方向课相对于其他大类没有明显的优势,甚至低于第三大类的学生。
表4第一大类成绩描述表
Table 4performance description table of the first class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 7 90.00 96.00 93.1429 2.11570
专业平台课 7 79.00 82.00 80.4286 .97590
金融方向课 7 73.00 76.00 74.5714 .97590
计算方向课 7 72.00 74.00 73.2857 .75593
公共基础课 7 89.00 92.00 90.4286 .97590
有效的 N(列表状态) 7
分析二:对第二大类(即待业或肄业的学生)进行成绩描述分析,如下表(见表5),可以观察到,就情况相对较差的学生各科的成绩都不是很好,各科的成绩均值都在70分以下;其中平台课和计算方向课的平均分数甚至低于60分的及格标准。
表5 第二大类成绩描述表
Table7performance description table of the second class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 9 64.00 70.00 67.6667 1.93649
专业平台课 9 55.00 61.00 58.3333 2.34521
金融方向课 9 60.00 67.00 63.8889 2.66667
计算方向课 9 58.00 61.00 59.7778 1.20185
公共基础课 9 60.00 64.00 61.8889 1.45297
有效的 N(列表状态) 9
分析三:对第三大类的成绩进行描述分析,明显看出该类学生的各科成绩都处在中等水平(见表6)。除此之外,实际中进入央企或大型国企的学生的成绩并没有表现出成绩优势,说明影响因素还存在很多,比如个人的交际能力实践能力等成绩之外的影响因素。
表6 第三大类成绩描述表
Table 8performance description table of the third class
描述统计量
N 极小值 极大值 均值 标准差
专业基础课 23 78.00 85.00 81.3043 2.22455
专业平台课 23 74.00 80.00 77.6087 1.72519
金融方向课 23 69.00 77.00 72.3478 2.63902
计算方向课 23 70.00 76.00 73.3913 1.97114
公共基础课 23 78.00 83.00 80.5217 1.44189
有效的 N(列表状态) 23
4小结
将学生的成绩数据作为聚类指标变量,利用相应的统计软件对学生聚类分析,然后将聚类结果与实际毕业情况对比,本次聚类结果基本与实际相符。利用聚类的办法,高校可以根据学生在校期间各科目成绩呈现的特点,参照对聚类结果产生各类的成绩的描述分析,对每一个学生进行判别归类。这样可以为学校定向培养方案的制定提供较科学的依据;同时也可以为学生学习计划的制定提供参考;此外,还可以根据第二大类呈现的数据特征划出“就业困难预警线”,这样可以给予成绩处在第二大类或可能要滑进第二大类学生及时的警示,从而达到趋利避害的效果。
参考文献:
[1]邓秀勤.聚类分析在股票市场板块分析中的应用[J].数理统计与管理,1999.
[2]何晓群.多元统计分析[M].北京:中国人民大学出版社,2004.
[3]周兴华.基于主成分分析的中原城市群城市发展水平研究[J].重庆科技学院学报:社会科学版,2012(5).
[4]柯冰,钱省三.聚类分析和因子分析在股票研究中的应用[J].上海理工大学学报,2004.
[5]向东进.实用多元统计分析[M].北京:中国地质大学出版.2005.
[6]章文波,陈红艳.实用数据统计分析及SPSS 12.0应用[M].北京:人民邮电出版社,2006.
[7]余建英,何旭宏.数据统计分析与SPSS应用[M].北京:人民邮电出版社,2003,4.