论文部分内容阅读
摘要:在高校贫困生评定问题上,常常需要从多方面考虑学生个人情况,而高校普遍存在无法确定哪些是重要因素,哪些是无关因素,进而选择考虑尽可能多因素来评定贫困生。本文立足于我国高校贫困生评定问题的现状,提出了基于Lasso Logistic的高校贫困生评定模型。使用Lasso方法从高校以及各地区政策普遍考虑的众多指标中选出最有效的评定指标,用Logistic模型进行了分类预测,最后通过本文得到的结果对现有政策提出了相应的几点建议。
关键词:Lasso Logistic模型;贫困生评定;预测
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2018)14-0253-03
目前我国在高等教育阶段,已经建立起国家励志奖学金、国家助学金、国家助学贷款、勤工助学、学费减免等多种方式并举的资助体系,直接或间接地为贫困生提供了经济资助。2015年12月9日,教育部发布的《规划纲要》中期评估学生资助专题报告显示,2010-2014年全国学生资助资金共计5564亿元。从受助学生看,2010-2014年全国累计资助学生4.1亿人次,学生资助经费投入和受助学生人数均大幅增长,我国教育公平迈出重大步伐。但是现行的资助体系也存在着问题,一方面贫困生数量大、认定难,不排除其中有随意性,且评定体系不规范,导致评定工作中具有较大的主观色彩,结果不够公平公正。因此,建立一个明确区分学生家庭经济状况的模型来评定助学金人选具有重大的现实意义。
本文将综合考虑学生在校的一卡通消费情况以及家庭情况,因为家庭因素的许多解释变量是定性变量,对其进行数量化需要引入虚拟变量,基于Lasso的Logistic模型可以很好地解决此类问题,使得评定过程更加具有针对性、客观性与透明化。
1 Lasso Logistic方法
1.1 Lasso模型
Lasso模型是由Robert Tibshirani在1996年所提出的一种能够实现指标集合精简的有偏估计方法。
1.2 Lasso Logistic模型
Lasso方法主要应用于线性模型,在估计参数时,系数被压缩,部分系数甚至被压缩到0来实现模型选择,但是对于贫困生评定及预测,其因变量是二元离散取值,应该使用回归模型Lasso Logistic。
2 高校贫困生评定分析
2.1 数据来源及虚拟变量的设置
我们通过问卷调查及一卡通消费情况获得数据,数据集中共有454条记录,包括17个字段,其中前16个字段是对学生一卡通消费数据以及家庭情况的描述,最后一个字段是学生是否为贫困生的评判,对其中的定性变量设置虚拟变量,进行处理及编码后的结果(解释变量16组共41个,因变量1个)见表1。
2.2 数据预处理
1)标准中心化
原始数据中,平均吃饭消费、学习消费、生活消费都是连续性数据,且各类数据相差级别大,单位各不相同,为克服量纲的影响,使模型参数估计系数具有可比性,需要先将其进行标准中心化处理,得到均值为0,标准差为1的服从标准正态分布的数据后再进行分析。
2)划分训练集与测试集
在本文所用数据集中,“贫困生”记录数为189个,“非贫困生”记录数为265个,从两部分数据中独立随机的抽取80%构成训练集,剩余20%作为测试集。
3)设置虚拟变量
通过调用R软件中nnet package的class.ind函数进行虚拟变量的设置。
2.3 模型的建立
1)变量选择与模型估计
本文数据分析的Lasso Logistic模型利用R软件中Glmnet程序包,通过十折交叉验证,得到随着横坐标调和参数值[λ]变化,纵坐标模型误差的变化情况,并在图的最上方给出模型筛选出来的对应变量数,两条虚线中间的取值为[λ]正负标准差的值域范围,左边虚线表示使模型误差最小时的调和参数[λ]的取值。
图1显示随着调和参数[λ]值的变化,模型中41个变量系数的筛选情况,为了尽量获得相对比较重要的变量,[λ]的理想取值应是使压缩程度达到最大,即[λ=e-3.5]。此时,基于Lasso变量选择的Logistic模型参数估计结果如表2所示。
从基于Lasso变量选择的Logistic模型参数估计结果可以看出,对于一卡通的消费,包括平均吃饭消费、学习消费、生活消费对于评定一个学生是否是贫困生都不是必要的因素,其原因是因为一卡通的消费地点限制在学校范围内,各种消费价格差别不是很大,因此在一卡通消费方面不会明显区分出来一个学生是否满足贫困生,此外,经济来源、学费来源、家庭需要赡养老人数、家庭人口、家中是否有重病或残疾人口、家庭是否是建档立卡贫困户、家庭成员的普遍受教育程度、平均月收入、学生的平均月生活费、学生是否进行过勤工俭学以及是否受过其他资助都是对于评定一个学生是否为贫困生有影响的因素。
2)模型评价
表3说明,基于Lasso筛选变量建立的Logistic模型,在训练集和测试集上的总体预测准确率都在80%以上,说明该模型可通过检验。
3 结论与政策建议
在进行贫困生评定时,由于解释变量大多为定性变量,所以在建立模型时需要设置较多的虚拟变量。Logistic模型是分析一个学生是否为贫困生的有效方法,而在高校进行贫困生评定时,由于无法确定哪些是重要因素,哪些是无关因素,给贫困生评定带来了一定程度的干扰。本文综合考虑了各大高校以及国家和地区相关政策的评定条件,确定了16个相关性显著的因素,基于Lasso方法建立了logistic模型,Lasso方法可以在参数估计的同时实现回归系数的确定,从所得结果看,无论是在变量解释还是预测准确率,Lasso方法都有良好的外推性,避免了多重共线性等问题。本文针对建立模型得出的结果提出以下建议:
(1)将学生在校一卡通消费情况作为评定其是否为贫困生是不合理的。因为在校所有消费项目差别均不是很大,因此仅靠一个学生一学期或一年的一卡通消费作为是否为贫困生的举措不可取;
(2)要积极且严格的核实申请学生的家庭情况。从模型结果来看,经济来源、学费来源、家庭需要赡养老人数、家庭人口、家中是否有重病或残疾人口、家庭是否是建档立卡贫困户、家庭成员的普遍受教育程度、平均月收入都是对于评定一个学生是否为贫困生有影响的因素,其中,学费来源与家庭平均受教育程度是最为显著的两个因素,因此,在学生申请贫困生时,要特别注意以上条件是否与实际情况符合;
(3)要建立一个动态的贫困生档案。许多高校将之前学生是否为贫困生作为重要依据,在本文得出的模型结果来看,当学生进行勤工俭学或者已受到過其他资助时,当年并不满足是贫困生的条件,因此,要实现公平公正的评定,真正保障“不让一个学生因家庭经济困难而失学”,就一定要建立一个动态的贫困生档案,从学生个人情况进行判定。
参考文献:
[1] 张彦坤.高校国家助学金量化评定管理模式探索[J].思想政治教育研究,2013,29(3).
[2] 彭德军,杨靖宇,沈有建.基于变权AHP法的贫困生评定[J].海南师范大学(自然科学版),2016,29(3).
[3] 王雪飞.数据挖掘在高校贫困生校园卡流水数据中的应用研究[D].吉林:东北师范大学,2014.
[4] 薛丹.高校助学金等级评定模型研究及系统开发[D].北京:北京交通大学,2010.
[5] 胡道安.关于我国高校助学金评选工作中存在的问题及其思考[J].中国成人教育,2011(16).
关键词:Lasso Logistic模型;贫困生评定;预测
中图分类号:TP301 文献标识码:A 文章编号:1009-3044(2018)14-0253-03
目前我国在高等教育阶段,已经建立起国家励志奖学金、国家助学金、国家助学贷款、勤工助学、学费减免等多种方式并举的资助体系,直接或间接地为贫困生提供了经济资助。2015年12月9日,教育部发布的《规划纲要》中期评估学生资助专题报告显示,2010-2014年全国学生资助资金共计5564亿元。从受助学生看,2010-2014年全国累计资助学生4.1亿人次,学生资助经费投入和受助学生人数均大幅增长,我国教育公平迈出重大步伐。但是现行的资助体系也存在着问题,一方面贫困生数量大、认定难,不排除其中有随意性,且评定体系不规范,导致评定工作中具有较大的主观色彩,结果不够公平公正。因此,建立一个明确区分学生家庭经济状况的模型来评定助学金人选具有重大的现实意义。
本文将综合考虑学生在校的一卡通消费情况以及家庭情况,因为家庭因素的许多解释变量是定性变量,对其进行数量化需要引入虚拟变量,基于Lasso的Logistic模型可以很好地解决此类问题,使得评定过程更加具有针对性、客观性与透明化。
1 Lasso Logistic方法
1.1 Lasso模型
Lasso模型是由Robert Tibshirani在1996年所提出的一种能够实现指标集合精简的有偏估计方法。
1.2 Lasso Logistic模型
Lasso方法主要应用于线性模型,在估计参数时,系数被压缩,部分系数甚至被压缩到0来实现模型选择,但是对于贫困生评定及预测,其因变量是二元离散取值,应该使用回归模型Lasso Logistic。
2 高校贫困生评定分析
2.1 数据来源及虚拟变量的设置
我们通过问卷调查及一卡通消费情况获得数据,数据集中共有454条记录,包括17个字段,其中前16个字段是对学生一卡通消费数据以及家庭情况的描述,最后一个字段是学生是否为贫困生的评判,对其中的定性变量设置虚拟变量,进行处理及编码后的结果(解释变量16组共41个,因变量1个)见表1。
2.2 数据预处理
1)标准中心化
原始数据中,平均吃饭消费、学习消费、生活消费都是连续性数据,且各类数据相差级别大,单位各不相同,为克服量纲的影响,使模型参数估计系数具有可比性,需要先将其进行标准中心化处理,得到均值为0,标准差为1的服从标准正态分布的数据后再进行分析。
2)划分训练集与测试集
在本文所用数据集中,“贫困生”记录数为189个,“非贫困生”记录数为265个,从两部分数据中独立随机的抽取80%构成训练集,剩余20%作为测试集。
3)设置虚拟变量
通过调用R软件中nnet package的class.ind函数进行虚拟变量的设置。
2.3 模型的建立
1)变量选择与模型估计
本文数据分析的Lasso Logistic模型利用R软件中Glmnet程序包,通过十折交叉验证,得到随着横坐标调和参数值[λ]变化,纵坐标模型误差的变化情况,并在图的最上方给出模型筛选出来的对应变量数,两条虚线中间的取值为[λ]正负标准差的值域范围,左边虚线表示使模型误差最小时的调和参数[λ]的取值。
图1显示随着调和参数[λ]值的变化,模型中41个变量系数的筛选情况,为了尽量获得相对比较重要的变量,[λ]的理想取值应是使压缩程度达到最大,即[λ=e-3.5]。此时,基于Lasso变量选择的Logistic模型参数估计结果如表2所示。
从基于Lasso变量选择的Logistic模型参数估计结果可以看出,对于一卡通的消费,包括平均吃饭消费、学习消费、生活消费对于评定一个学生是否是贫困生都不是必要的因素,其原因是因为一卡通的消费地点限制在学校范围内,各种消费价格差别不是很大,因此在一卡通消费方面不会明显区分出来一个学生是否满足贫困生,此外,经济来源、学费来源、家庭需要赡养老人数、家庭人口、家中是否有重病或残疾人口、家庭是否是建档立卡贫困户、家庭成员的普遍受教育程度、平均月收入、学生的平均月生活费、学生是否进行过勤工俭学以及是否受过其他资助都是对于评定一个学生是否为贫困生有影响的因素。
2)模型评价
表3说明,基于Lasso筛选变量建立的Logistic模型,在训练集和测试集上的总体预测准确率都在80%以上,说明该模型可通过检验。
3 结论与政策建议
在进行贫困生评定时,由于解释变量大多为定性变量,所以在建立模型时需要设置较多的虚拟变量。Logistic模型是分析一个学生是否为贫困生的有效方法,而在高校进行贫困生评定时,由于无法确定哪些是重要因素,哪些是无关因素,给贫困生评定带来了一定程度的干扰。本文综合考虑了各大高校以及国家和地区相关政策的评定条件,确定了16个相关性显著的因素,基于Lasso方法建立了logistic模型,Lasso方法可以在参数估计的同时实现回归系数的确定,从所得结果看,无论是在变量解释还是预测准确率,Lasso方法都有良好的外推性,避免了多重共线性等问题。本文针对建立模型得出的结果提出以下建议:
(1)将学生在校一卡通消费情况作为评定其是否为贫困生是不合理的。因为在校所有消费项目差别均不是很大,因此仅靠一个学生一学期或一年的一卡通消费作为是否为贫困生的举措不可取;
(2)要积极且严格的核实申请学生的家庭情况。从模型结果来看,经济来源、学费来源、家庭需要赡养老人数、家庭人口、家中是否有重病或残疾人口、家庭是否是建档立卡贫困户、家庭成员的普遍受教育程度、平均月收入都是对于评定一个学生是否为贫困生有影响的因素,其中,学费来源与家庭平均受教育程度是最为显著的两个因素,因此,在学生申请贫困生时,要特别注意以上条件是否与实际情况符合;
(3)要建立一个动态的贫困生档案。许多高校将之前学生是否为贫困生作为重要依据,在本文得出的模型结果来看,当学生进行勤工俭学或者已受到過其他资助时,当年并不满足是贫困生的条件,因此,要实现公平公正的评定,真正保障“不让一个学生因家庭经济困难而失学”,就一定要建立一个动态的贫困生档案,从学生个人情况进行判定。
参考文献:
[1] 张彦坤.高校国家助学金量化评定管理模式探索[J].思想政治教育研究,2013,29(3).
[2] 彭德军,杨靖宇,沈有建.基于变权AHP法的贫困生评定[J].海南师范大学(自然科学版),2016,29(3).
[3] 王雪飞.数据挖掘在高校贫困生校园卡流水数据中的应用研究[D].吉林:东北师范大学,2014.
[4] 薛丹.高校助学金等级评定模型研究及系统开发[D].北京:北京交通大学,2010.
[5] 胡道安.关于我国高校助学金评选工作中存在的问题及其思考[J].中国成人教育,2011(16).