论文部分内容阅读
摘 要:本文在获取校园一卡通数据的基础上,采用数据挖掘与Logistic回归分析方法,以某高校的助学金发放为例,分析助学金获得者的共同特征,为其建立数学模型,以期完成精准资助,帮助真正家庭贫困的同学顺利完成学业。
关键词:助学金;数据挖掘;影响因素;Logistic回归分析
中图分类号:G467.8 文献标志码:A 文章编号:1673-8454(2018)17-0064-03
一、引言
助学金是帮助困难学生完成学业,保障学习质量的重要手段。精确的助学金资助策略,体现了决策者的管理智慧和教育公平性。目前国内许多学者主要关注以下几个方面的研究内容:①助学金管理模式的探索及体系的完善。国内学者从影响资助的不同因素出发,构建了多样化的资助评价体系。如余春玲根据平衡加分卡思想,分析了目前高校贫困学生资助模式存在的问题,并基于平衡记分卡,构建了一个包含财务、客户、内部流程管理过程、学习与成长四个方面指标的高校贫困学生资助评价体系。[1]张彦坤结合高校国家助学金评定实际情况,构建了一套包括4项一级指标、12项由一级指标细化而来的子因素的助学金量化评定指标体系。[2]②助学金制度绩效调查分析。国内学者大多从财政教育投资的投入、活动、产出、结果和影响等方面,多角度构建了多层次的高等教育绩效评价体系。[3]如陈绵水等从助学金发放(资金投入指标)、助学金使用(过程指标)、助学金效果(产出指标)三个方面评价助学金制度绩效,得出我国助学金评定基本做到公平公正,但仍存在宣传工作不尽人意,信息不够畅通,存在少量暗箱操作等问题。[4]③关于影响助学金发放的因素模型的探究。国内学者大多综合利了模糊评价与熵权法,建立模糊评价模型。[5]如夏阳针对资助判定问题,运用模糊层次分析方法,构造模糊一致矩阵,建立了助学金判定模型。[6]也有学者利用了SPSS中的多元线性回归模型。如邓海云进行多元线性回归分析,应用 stepwise方法,建立了评定的多元线性回归关系模型。[7]
现有文献研究多局限于理论层面的宏观分析,实证分析和数学模型的辅助研究较少,并且已有的实证分析大都是通过问卷调查得到的数据,具有一定的主观性。本文则针对某高校校园一卡通的客观数据,采用数据挖掘技术,利用相关性分析提取与获得助学金与否有关的特征因子,以期进行精准助学金发放。本文的数据直接来自于较为客观的学生一卡通数据,在此基础上,本文将获得助学金与否作为被解释变量,建立二分类Logistic回归模型来直观说明影响助学金获得与否的关键因素。
二、模型设计
逻辑回归又称logistic回歸,是一种广义线性回归,用于在被解释变量是非连续情况下进行回归分析。根据被解释变量的分类方式不同,有二分类logistic回归和多分类logistic回归。
1.模型选择
2.变量选取
三、实证分析
本文根据某高校学生一卡通数据,选取108名学生作为样本,进行实证研究。
1.变量描述性统计分析
本文从极小值、极大值、均值、标准差四个方面对108名学生一个月的一卡通数据进行描述。在各消费中,食堂消费的均值最大,为318.5,说明该校学生的花销大多用于伙食消费;成绩排名的标准差最大,达到843.5,说明所选学生的学习存在明显的两极分化;开水房消费与坐校车次数的极小值为0,说明开水房消费与校车消费并不是学生的必须消费;去图书馆次数的标准差较大,说明学生的学习态度存在较大差异。具体描述情况见表2。
2.多重共线性分析
Hanushek和Jackson认为Logistic回归模型的参数易受解释变量间共线性的影响[11],由于本文是多因素分析,为了防止各变量存在多重共线性,避免各个变量之间的相互影响,保证结果的准确性,首先对解释变量与被解释变量进行多重共线性检验。[12]
本文选取方差膨胀因子(VIF)和条件索引(CI)来检验变量间的共线性[13],一般认为VIF值越大则变量共线性越强,VIF≥5时存在复共线性,VIF≥10时存在严重共线性。当条件索引 30≥CI≥10 时存在弱共线性,100≥CI≥30 时存在中等共线性,CI>100时存在严重共线性。而当CI<10时认为不存在共线性。
从表3的多重共线性分析结果可以看到,各个解释变量的方差膨胀因子(VIF)的最大值为1.182,未超过5;条件索引(CI)的最大值为7.481,小于10,说明各变量之间不存在多重共线性问题,可以在一个模型中使用。
3.逻辑回归分析
本文选取H-L拟合优度检验[14-15]来判断模型的拟合情况,零假设为模型能够很好地拟合数据。分析结果显示,Sig=0.596>0.1,接受零假设,说明模型拟合数据程度好。
表4是对所有变量进行二元逻辑回归的结果。结果显示,食堂消费、开水房消费与获得助学金与否在1%的概率水平下呈显著的负相关关系;坐校车的次数与获得助学金与否在10%的概率水平下呈显著的负相关关系。而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系并不明显。
四、总结
1.结论分析
通过构建logistic回归模型以分析助学金获得与否的影响因素,确定被解释变量、选取解释变量、检验变量间多重共线性、检验模型拟合度并利用SPSS软件进行模型分析与检验,得出以下结论:食堂消费、开水房消费、坐校车的次数与获得助学金与否呈显著的负相关关系;而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系不明显。
本文认为,食堂、开水房、校车等场所只能以学生一卡通作为消费的途径,可以较好地反映学生的实际经济情况,而超市等场所除可用学生一卡通支付外,还可使用现金,不能较好地反映学生的实际经济情况。由此可见,可以根据学生一卡通的食堂消费、开水房消费、坐校车次数等因素进行助学金的评定,而超市消费则不能作为评定的依据。同时,学生的用功情况及学习成绩也不作为评定的依据。 2.对策建议
由实验可得出,评定助学金可以以学生一卡通信息为依据,但通过一卡通信息进行助学金评定时,应选择学生的食堂消费、开水房消费、坐校车次数等单消费途径的因素,超市消费等多消费途径的因素由于不能反映学生的实际经济情况,不应在考虑范围之内。
在此提出建议:在评定助学金时,通过学生一卡通消费情况确定其家庭经济情况,以此作为发放的依据。在家庭经济情况相同时,可以优先考虑评选学习成绩较好、学习态度端正的学生,将学习情况也纳入评定助学金的指标,以此激励学生刻苦学习。
参考文献:
[1]余春玲.基于平衡记分卡的高校贫困学生资助评价体系[J].江苏高教,2009(1):117-118.
[2]张彦坤.高校国家助学金量化评定管理模式探索[J].思想政治教育研究,2013(3):105-107.
[3]刘国永.高等教育财政支出绩效评价指标设计原理方法及运用[J].教育与经济,2007(3):30-35.
[4]陈绵水,付剑茹,施文艺.国家助学金制度绩效调查分析[J].江西社会科学,2013(11):232-236.
[5]侯其锋.基于熵权法与模糊综合评价模型的助学金评定方法[J].高校辅导员学刊,2012(5):61-64.
[6]夏陽,蒋诚钢.基于模糊层次分析法的高校国家助学金评定模型[J].辽宁工程技术大学学报(社会科学版),2017(4):437-441.
[7]邓海云,熊良林,颜莉.基于SPSS助学金评选获评因素的MLR模型构建[J].云南民族大学学报(自然科学版),2013(2):119-123.
[8]苏磊.不同公司规模下公司治理结构与信息披露质量的关系研究[D].济南:山东大学,2012.
[9]付剑茹,张伟,陈绵水.针对微观数据的新国家助学金政策——LOGIT模型实证分析[J].现代教育管理,2014(9):64-68.
[10]牛岩.作物产量指标综合评价的数据标准化处理[J].农村经济与科技,2017(19):16-19.
[11]蒋红卫,张罗漫,孟虹.Logstic回归模型共线性三种降维方法的模拟比较研究[J].中国卫生统计,2010(6):562-566.
[12]白雪梅,赵松山.更深入地认识多重共线性[J].东北财经大学学报,2005(2):8-12.
[13]魏晨,陈英,白志远,黄思琴.基于Logic回归模型的农民宅基地退出意愿测算——以玉泉镇4个村庄为例[J].中国农学通报,2014(32):114-121.
[14]吴明隆.问卷统计分析实务——SPSS 操作与应用[M].重庆:重庆大学出版社,2010.
[15]康逸.基于逻辑回归模型下微商市场中消费者意愿的影响因素实证分析——以杭州市为例[J].当代经济,2016(28):38-40.
(编辑:王晓明)
关键词:助学金;数据挖掘;影响因素;Logistic回归分析
中图分类号:G467.8 文献标志码:A 文章编号:1673-8454(2018)17-0064-03
一、引言
助学金是帮助困难学生完成学业,保障学习质量的重要手段。精确的助学金资助策略,体现了决策者的管理智慧和教育公平性。目前国内许多学者主要关注以下几个方面的研究内容:①助学金管理模式的探索及体系的完善。国内学者从影响资助的不同因素出发,构建了多样化的资助评价体系。如余春玲根据平衡加分卡思想,分析了目前高校贫困学生资助模式存在的问题,并基于平衡记分卡,构建了一个包含财务、客户、内部流程管理过程、学习与成长四个方面指标的高校贫困学生资助评价体系。[1]张彦坤结合高校国家助学金评定实际情况,构建了一套包括4项一级指标、12项由一级指标细化而来的子因素的助学金量化评定指标体系。[2]②助学金制度绩效调查分析。国内学者大多从财政教育投资的投入、活动、产出、结果和影响等方面,多角度构建了多层次的高等教育绩效评价体系。[3]如陈绵水等从助学金发放(资金投入指标)、助学金使用(过程指标)、助学金效果(产出指标)三个方面评价助学金制度绩效,得出我国助学金评定基本做到公平公正,但仍存在宣传工作不尽人意,信息不够畅通,存在少量暗箱操作等问题。[4]③关于影响助学金发放的因素模型的探究。国内学者大多综合利了模糊评价与熵权法,建立模糊评价模型。[5]如夏阳针对资助判定问题,运用模糊层次分析方法,构造模糊一致矩阵,建立了助学金判定模型。[6]也有学者利用了SPSS中的多元线性回归模型。如邓海云进行多元线性回归分析,应用 stepwise方法,建立了评定的多元线性回归关系模型。[7]
现有文献研究多局限于理论层面的宏观分析,实证分析和数学模型的辅助研究较少,并且已有的实证分析大都是通过问卷调查得到的数据,具有一定的主观性。本文则针对某高校校园一卡通的客观数据,采用数据挖掘技术,利用相关性分析提取与获得助学金与否有关的特征因子,以期进行精准助学金发放。本文的数据直接来自于较为客观的学生一卡通数据,在此基础上,本文将获得助学金与否作为被解释变量,建立二分类Logistic回归模型来直观说明影响助学金获得与否的关键因素。
二、模型设计
逻辑回归又称logistic回歸,是一种广义线性回归,用于在被解释变量是非连续情况下进行回归分析。根据被解释变量的分类方式不同,有二分类logistic回归和多分类logistic回归。
1.模型选择
2.变量选取
三、实证分析
本文根据某高校学生一卡通数据,选取108名学生作为样本,进行实证研究。
1.变量描述性统计分析
本文从极小值、极大值、均值、标准差四个方面对108名学生一个月的一卡通数据进行描述。在各消费中,食堂消费的均值最大,为318.5,说明该校学生的花销大多用于伙食消费;成绩排名的标准差最大,达到843.5,说明所选学生的学习存在明显的两极分化;开水房消费与坐校车次数的极小值为0,说明开水房消费与校车消费并不是学生的必须消费;去图书馆次数的标准差较大,说明学生的学习态度存在较大差异。具体描述情况见表2。
2.多重共线性分析
Hanushek和Jackson认为Logistic回归模型的参数易受解释变量间共线性的影响[11],由于本文是多因素分析,为了防止各变量存在多重共线性,避免各个变量之间的相互影响,保证结果的准确性,首先对解释变量与被解释变量进行多重共线性检验。[12]
本文选取方差膨胀因子(VIF)和条件索引(CI)来检验变量间的共线性[13],一般认为VIF值越大则变量共线性越强,VIF≥5时存在复共线性,VIF≥10时存在严重共线性。当条件索引 30≥CI≥10 时存在弱共线性,100≥CI≥30 时存在中等共线性,CI>100时存在严重共线性。而当CI<10时认为不存在共线性。
从表3的多重共线性分析结果可以看到,各个解释变量的方差膨胀因子(VIF)的最大值为1.182,未超过5;条件索引(CI)的最大值为7.481,小于10,说明各变量之间不存在多重共线性问题,可以在一个模型中使用。
3.逻辑回归分析
本文选取H-L拟合优度检验[14-15]来判断模型的拟合情况,零假设为模型能够很好地拟合数据。分析结果显示,Sig=0.596>0.1,接受零假设,说明模型拟合数据程度好。
表4是对所有变量进行二元逻辑回归的结果。结果显示,食堂消费、开水房消费与获得助学金与否在1%的概率水平下呈显著的负相关关系;坐校车的次数与获得助学金与否在10%的概率水平下呈显著的负相关关系。而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系并不明显。
四、总结
1.结论分析
通过构建logistic回归模型以分析助学金获得与否的影响因素,确定被解释变量、选取解释变量、检验变量间多重共线性、检验模型拟合度并利用SPSS软件进行模型分析与检验,得出以下结论:食堂消费、开水房消费、坐校车的次数与获得助学金与否呈显著的负相关关系;而超市消费、成绩排名、去图书馆次数与获得助学金与否的关系不明显。
本文认为,食堂、开水房、校车等场所只能以学生一卡通作为消费的途径,可以较好地反映学生的实际经济情况,而超市等场所除可用学生一卡通支付外,还可使用现金,不能较好地反映学生的实际经济情况。由此可见,可以根据学生一卡通的食堂消费、开水房消费、坐校车次数等因素进行助学金的评定,而超市消费则不能作为评定的依据。同时,学生的用功情况及学习成绩也不作为评定的依据。 2.对策建议
由实验可得出,评定助学金可以以学生一卡通信息为依据,但通过一卡通信息进行助学金评定时,应选择学生的食堂消费、开水房消费、坐校车次数等单消费途径的因素,超市消费等多消费途径的因素由于不能反映学生的实际经济情况,不应在考虑范围之内。
在此提出建议:在评定助学金时,通过学生一卡通消费情况确定其家庭经济情况,以此作为发放的依据。在家庭经济情况相同时,可以优先考虑评选学习成绩较好、学习态度端正的学生,将学习情况也纳入评定助学金的指标,以此激励学生刻苦学习。
参考文献:
[1]余春玲.基于平衡记分卡的高校贫困学生资助评价体系[J].江苏高教,2009(1):117-118.
[2]张彦坤.高校国家助学金量化评定管理模式探索[J].思想政治教育研究,2013(3):105-107.
[3]刘国永.高等教育财政支出绩效评价指标设计原理方法及运用[J].教育与经济,2007(3):30-35.
[4]陈绵水,付剑茹,施文艺.国家助学金制度绩效调查分析[J].江西社会科学,2013(11):232-236.
[5]侯其锋.基于熵权法与模糊综合评价模型的助学金评定方法[J].高校辅导员学刊,2012(5):61-64.
[6]夏陽,蒋诚钢.基于模糊层次分析法的高校国家助学金评定模型[J].辽宁工程技术大学学报(社会科学版),2017(4):437-441.
[7]邓海云,熊良林,颜莉.基于SPSS助学金评选获评因素的MLR模型构建[J].云南民族大学学报(自然科学版),2013(2):119-123.
[8]苏磊.不同公司规模下公司治理结构与信息披露质量的关系研究[D].济南:山东大学,2012.
[9]付剑茹,张伟,陈绵水.针对微观数据的新国家助学金政策——LOGIT模型实证分析[J].现代教育管理,2014(9):64-68.
[10]牛岩.作物产量指标综合评价的数据标准化处理[J].农村经济与科技,2017(19):16-19.
[11]蒋红卫,张罗漫,孟虹.Logstic回归模型共线性三种降维方法的模拟比较研究[J].中国卫生统计,2010(6):562-566.
[12]白雪梅,赵松山.更深入地认识多重共线性[J].东北财经大学学报,2005(2):8-12.
[13]魏晨,陈英,白志远,黄思琴.基于Logic回归模型的农民宅基地退出意愿测算——以玉泉镇4个村庄为例[J].中国农学通报,2014(32):114-121.
[14]吴明隆.问卷统计分析实务——SPSS 操作与应用[M].重庆:重庆大学出版社,2010.
[15]康逸.基于逻辑回归模型下微商市场中消费者意愿的影响因素实证分析——以杭州市为例[J].当代经济,2016(28):38-40.
(编辑:王晓明)