论文部分内容阅读
摘 要:如何进行贫困生补助评定高效准确化是高校学生工作存在的普遍性难题,本文以山西财经大学为研究对象,在初步构建贫困分析指标体系的基础上,设计调查问卷搜集数据,运用python软件建立交叉熵模型,对所搜集的有效数据进行数据挖掘,得出重要性指标。力争将补助评定客观化,以此来保证国家贫困生资助体系公平、公正、公开,具有现实性推广意义。
关键词:贫困生认定指标体系;交叉熵模型;数据挖掘
2011年11月29日,国务院总理温家宝在中央扶贫开发工作会议上宣布,将农民人均年纯收入2300元作为新的国家扶贫标准。此后以2300元为基准不定期调整,2016年为3000元。但由于家庭收入难以调查并且存在学生虚报的情况,单纯凭借该指标进行贫困生评定存在很大的缺陷。我国大多数高校目前的做法是在学生自主申请的基础上,结合学生所在地乡镇、街道办事处民政部门开具的贫困证明来遴选贫困生。此办法在过去行之有效,并在一定的历史阶段起到了重要作用。但是在新的环境下这种方式显示出了很多的弊端,各类造假以及无法顾及贫困生尊严等问题难以解决,特别是在缺乏刚性标准的情况下存在着贫困学生精准识别难的问题,学生是否贫困、以及家庭贫困的程度难以鉴定。
针对上述存在的问题,我们利用大学生各类消费信息,设计科学合理的调查问卷,建立一套能客观并有效反映其消费观和消费能力的评价指标体系,并通过交叉熵模型对各个指标赋予权重,从而明确能够全面反映大学生消费行为的具体指标,最大程度减少人为干预,为贫困生等级评定工作提供客观的、具有参考性、针对性的指标来源,并使客观的数据分析起到国家及社会对贫困生有尊严地资助的作用,维护贫困学生的切身利益。
一、贫困生认定指标体系的确立
由于大学生的消费领域和消费行为非常明确,而且大学生在生活水平上的差距主要是通过消费行为体现出来的,所以要界定贫困生资格,首要的方面是对大学生的消费行为进行调查。这个方法在操作上的难点是如何对大学生的消费行为进行测量。本文在借鉴大量相关资料的基础上确定了多个测量变量,以此构建贫困分析指标体系。
(一)基本情况
基本情况主要包括该学生家庭人口、性别、年级、是否受过资助四方面情况。家庭人口数量是影响一个家庭经济情况的重要因素,直接关系到每个家庭的经济负担;此外,性别和年级不同,消费方式和消费观念会有所区别;该同学是否受过资助在消费上也会有差异,将其进行分类处理会更加合理。
(二)家庭收入情况
家庭收入情况主要包括家庭收入及来源、医疗费用、生活费来源三方面情况。家庭收入及来源直接关系到每个家庭的经济状况;医疗费用是家庭的一项重大支出,巨额的医疗费用会给部分家庭造成严重的经济负担;生活费来源也是考察家庭经济状况的一项参考指标,经常勤工俭学的学生也能从侧面反映家庭的艰辛。
(三)基础性消费
基础性消费主要包括日常消费用途、餐费零食费、衣服及化妆品价位和购买频率等三个方面的内容。日常消费与家庭情况息息相关,当然其中也难免存在部分学生出现攀比的现象,从而导致预测结果出现偏差,但这也一定程度上纠正这些学生的攀比心理;餐费零食费是学生在学校最主要的一项支出,其费用的多少以及是否经常外出就餐是受家庭经济状况影响;衣服及化妆品的花销是贫困学生与其他学生形成消费差距的一个重要指标,将其纳入指标体系也比较合理。
(四)电子产品消费
电子产品消费主要包括手机及电脑价位和购买时间、其他电子设备等内容。手机和电脑的价位是消费差距的一个重要指标,当然其中也存在攀比因素,但将其作为参考指标很有实际意义;购买时间主要作为辅助指标,购买时间早的学生某种程度上也说明家庭状况良好,大部分学生还是进入大学后才买的电脑;其他电子设备的购买,大部分贫困学生有了手机和电脑之后便不再购买其他电子设备。
(五)娱乐消费
娱乐消费情况主要包括电子游戏、户外体育装备等内容。电子游戏是当今大学生除日常消费外的一项重要支出,作为一种可选择消费,在一定程度上的确能反映家庭经济状况;户外体育装备作为一种等级明晰、价格分层的商品,不同学生对其的消费情况也能比较清楚地体现经济水平。
(六)消费观念
消费观念主要包括消费方式和品牌偏执两个方面。这两个方面主要与个人的消费习惯和消费思维相关,家庭经济条件在此发挥很大的作用,一大部分条件优越的同学都存在品牌偏执等情况,因此,将其作为辅助判断指标纳入指标体系也是必要的。
基于上述分析得到的指标体系结构图如下:
二、研究设计
(一)问卷设计与数据搜集
在对问卷的设计中,我们根据图一的指标体系设计了相应的问题。为了使调查效果更贴合大学生实际,我们在正式调查之前采用自愿样本法和深度访谈法进行了预调查,根據预调查反馈的结果对个别项进行了修改,确定了最终的调查问卷。
问卷发放形式采取线上、线下发放相结合,调查对象主要为山西财经大学在校学生。最终,此次调查共回收问卷512份,有效问卷358份,有效率为69.9%。
在问卷处理方面,我们对问卷中的单选题采用二分变量进行测量,即0代表未选中,1代表选中;对于问卷中的多选题,采用分类变量进行测量,则采用1,2,3,4分别表示不同的类别。
(二)研究方法与思维
在方法上,本文主要通过交叉熵模型对所搜集数据进行数据挖掘。首先在分析过程中引入多重个体因素并不断纠正与完善;再次,数据的提供方式由主动采集变为被动收集,由申请人提供一系列数据来进行分析,当然数据的可靠性需要其他机制来进行保障。
在思维上,运用大数据思维,把对于贫困生的认定从传统的认定体系和方法中转到充分利用学生家庭和个人的信用、消费等信息进行客观的认定上来。这既能体现贫困生的事实,又能保护学生的个人隐私,实现资助真正的贫困学生。 三、模型分析与结果
(一)模型特点及其原理
交叉熵技术作为数据挖掘领域中深入分析分类问题的一种方法,是根据数据样本当中跟目标属性相关的指标将数据分类,形成一个交叉熵的结构,结点代表数据库集中的一个属性,根据不同的判断结果选择不同的子节点,最终的叶结点表示分类的最终结果。此分类方法非常适合分析具有类别的数据,因具有准确率高、分类速度快、描述简单、易于理解等优点而得到广泛应用。
模型原理:每一个节点通过计算当前到达这个节点的数据集中各个特征的信息熵进行判断和分类,选择分类后熵尽量小的特征在该节点再次分类,当数据集缩小到一定规模或者数据集中目标特征是同一个值的时候,分类停止,据此构建交叉熵模型。
(二)交叉熵模型的构建
Step1:在Python中自带的sklearn模块中引入交叉熵函数。
Step2:把训练数据投入进行训练交叉熵。
Step3:将测试数据投入检验模型效果,调整参数直到有一个满意的效果。
(三)模型结果
根据整个项目的分析以及经验,我们得出几个和资助情况相关度最高的指标是:缺少资金时的解决方法和品牌偏执,以及手机、化妆品的价位。
由此我们可以看到虽然基础性消费是在校生最主要的一项支出,但作为必需消费品,贫困生与其他学生很难形成消费差距,因此有关该方面的指标不宜大权重地纳入指标体系。相反,反倒是那些可选择性消费品以及久而久之形成的消费方式和消费观念在指标体系中发挥更大的作用,因为这是不同学生形成消费差异的重要方面。
(四)模型检验
拟合度是否合格的评判标准,关系着算法的改进和模型的优化等重要方面。如图上所示,数据划分同上,蓝线所代表的训练集上的效果值近似达到了100%,而且红线所表示对新的数据的拟合随着样本数量的增大拟合分数一超过了80%,故交叉熵模型随着数据量的增长显示出较为优化的结果。
四、结语
(一)总结评价
与研究该内容的大部分文章相比,本文创新之处在于并不仅仅止步于建立贫困分析指标体系,而是在此基础上进一步结合当前时代发展利用大数据技术进行数据挖掘,从而根据数据分析驱动决策,达到补助评定客观化的目的。
但本文仅通过外部感知的消费情况对大学生贫困程度进行界定,还应结合学习成绩因素、人际关系因素、生活作风因素、遵守学校纪律因素以及社会公益因素等体现大学生综合素质的指标进行补助评选。此外,所建立的模型只得到了在指标体系中发挥更大作用的维度,并没有进行得到各个指标的具体权重,因此还可以进一步优化模型。
(二)启示与建议
1.完善贫困生评价体系指标
首先应该将消费指标纳入评价体系,并将数据分析方法所得的结果作为一个参考,不再单一地使用经验性的方法来评价。其次根据交叉熵模型分析结果可以舍弃部分与评价贫困生无关的属性,从而大大减轻贫困生评定工作量,使评价指标更加明确和简洁。
2.改进贫困生评价工作方法
高校学生工作部门在遴选贫困生时,除了采取学生自述和地方民政部门开贫困证明的办法外,还应该从外部感知的角度对学生的消费行为进行评价,将模型所篩选出的重要指标作为遴选贫困生工作的重要依据,这样有利于保证贫困生遴选的准确性,进而可保证助学金评定的公平性和公正性。
参考文献:
[1]杨知玲.数据挖掘在高校贫困生评价中的应用研究[D].华南理工大学,2015.
[2]常亚平,宗树阔.中国高校学生贫困度测评体系和评价模型构建研究[J].高教探索,2009(01):119-124.
[3]繆春梅,史吉峰,孙艳华.高校贫困生助学金评价体系的构建[J].2010(02):210-212.
作者简介:胡诗雅(1997—),女,满族,河北承德人,经济学学士,主要研究方向:金融风险。
关键词:贫困生认定指标体系;交叉熵模型;数据挖掘
2011年11月29日,国务院总理温家宝在中央扶贫开发工作会议上宣布,将农民人均年纯收入2300元作为新的国家扶贫标准。此后以2300元为基准不定期调整,2016年为3000元。但由于家庭收入难以调查并且存在学生虚报的情况,单纯凭借该指标进行贫困生评定存在很大的缺陷。我国大多数高校目前的做法是在学生自主申请的基础上,结合学生所在地乡镇、街道办事处民政部门开具的贫困证明来遴选贫困生。此办法在过去行之有效,并在一定的历史阶段起到了重要作用。但是在新的环境下这种方式显示出了很多的弊端,各类造假以及无法顾及贫困生尊严等问题难以解决,特别是在缺乏刚性标准的情况下存在着贫困学生精准识别难的问题,学生是否贫困、以及家庭贫困的程度难以鉴定。
针对上述存在的问题,我们利用大学生各类消费信息,设计科学合理的调查问卷,建立一套能客观并有效反映其消费观和消费能力的评价指标体系,并通过交叉熵模型对各个指标赋予权重,从而明确能够全面反映大学生消费行为的具体指标,最大程度减少人为干预,为贫困生等级评定工作提供客观的、具有参考性、针对性的指标来源,并使客观的数据分析起到国家及社会对贫困生有尊严地资助的作用,维护贫困学生的切身利益。
一、贫困生认定指标体系的确立
由于大学生的消费领域和消费行为非常明确,而且大学生在生活水平上的差距主要是通过消费行为体现出来的,所以要界定贫困生资格,首要的方面是对大学生的消费行为进行调查。这个方法在操作上的难点是如何对大学生的消费行为进行测量。本文在借鉴大量相关资料的基础上确定了多个测量变量,以此构建贫困分析指标体系。
(一)基本情况
基本情况主要包括该学生家庭人口、性别、年级、是否受过资助四方面情况。家庭人口数量是影响一个家庭经济情况的重要因素,直接关系到每个家庭的经济负担;此外,性别和年级不同,消费方式和消费观念会有所区别;该同学是否受过资助在消费上也会有差异,将其进行分类处理会更加合理。
(二)家庭收入情况
家庭收入情况主要包括家庭收入及来源、医疗费用、生活费来源三方面情况。家庭收入及来源直接关系到每个家庭的经济状况;医疗费用是家庭的一项重大支出,巨额的医疗费用会给部分家庭造成严重的经济负担;生活费来源也是考察家庭经济状况的一项参考指标,经常勤工俭学的学生也能从侧面反映家庭的艰辛。
(三)基础性消费
基础性消费主要包括日常消费用途、餐费零食费、衣服及化妆品价位和购买频率等三个方面的内容。日常消费与家庭情况息息相关,当然其中也难免存在部分学生出现攀比的现象,从而导致预测结果出现偏差,但这也一定程度上纠正这些学生的攀比心理;餐费零食费是学生在学校最主要的一项支出,其费用的多少以及是否经常外出就餐是受家庭经济状况影响;衣服及化妆品的花销是贫困学生与其他学生形成消费差距的一个重要指标,将其纳入指标体系也比较合理。
(四)电子产品消费
电子产品消费主要包括手机及电脑价位和购买时间、其他电子设备等内容。手机和电脑的价位是消费差距的一个重要指标,当然其中也存在攀比因素,但将其作为参考指标很有实际意义;购买时间主要作为辅助指标,购买时间早的学生某种程度上也说明家庭状况良好,大部分学生还是进入大学后才买的电脑;其他电子设备的购买,大部分贫困学生有了手机和电脑之后便不再购买其他电子设备。
(五)娱乐消费
娱乐消费情况主要包括电子游戏、户外体育装备等内容。电子游戏是当今大学生除日常消费外的一项重要支出,作为一种可选择消费,在一定程度上的确能反映家庭经济状况;户外体育装备作为一种等级明晰、价格分层的商品,不同学生对其的消费情况也能比较清楚地体现经济水平。
(六)消费观念
消费观念主要包括消费方式和品牌偏执两个方面。这两个方面主要与个人的消费习惯和消费思维相关,家庭经济条件在此发挥很大的作用,一大部分条件优越的同学都存在品牌偏执等情况,因此,将其作为辅助判断指标纳入指标体系也是必要的。
基于上述分析得到的指标体系结构图如下:
二、研究设计
(一)问卷设计与数据搜集
在对问卷的设计中,我们根据图一的指标体系设计了相应的问题。为了使调查效果更贴合大学生实际,我们在正式调查之前采用自愿样本法和深度访谈法进行了预调查,根據预调查反馈的结果对个别项进行了修改,确定了最终的调查问卷。
问卷发放形式采取线上、线下发放相结合,调查对象主要为山西财经大学在校学生。最终,此次调查共回收问卷512份,有效问卷358份,有效率为69.9%。
在问卷处理方面,我们对问卷中的单选题采用二分变量进行测量,即0代表未选中,1代表选中;对于问卷中的多选题,采用分类变量进行测量,则采用1,2,3,4分别表示不同的类别。
(二)研究方法与思维
在方法上,本文主要通过交叉熵模型对所搜集数据进行数据挖掘。首先在分析过程中引入多重个体因素并不断纠正与完善;再次,数据的提供方式由主动采集变为被动收集,由申请人提供一系列数据来进行分析,当然数据的可靠性需要其他机制来进行保障。
在思维上,运用大数据思维,把对于贫困生的认定从传统的认定体系和方法中转到充分利用学生家庭和个人的信用、消费等信息进行客观的认定上来。这既能体现贫困生的事实,又能保护学生的个人隐私,实现资助真正的贫困学生。 三、模型分析与结果
(一)模型特点及其原理
交叉熵技术作为数据挖掘领域中深入分析分类问题的一种方法,是根据数据样本当中跟目标属性相关的指标将数据分类,形成一个交叉熵的结构,结点代表数据库集中的一个属性,根据不同的判断结果选择不同的子节点,最终的叶结点表示分类的最终结果。此分类方法非常适合分析具有类别的数据,因具有准确率高、分类速度快、描述简单、易于理解等优点而得到广泛应用。
模型原理:每一个节点通过计算当前到达这个节点的数据集中各个特征的信息熵进行判断和分类,选择分类后熵尽量小的特征在该节点再次分类,当数据集缩小到一定规模或者数据集中目标特征是同一个值的时候,分类停止,据此构建交叉熵模型。
(二)交叉熵模型的构建
Step1:在Python中自带的sklearn模块中引入交叉熵函数。
Step2:把训练数据投入进行训练交叉熵。
Step3:将测试数据投入检验模型效果,调整参数直到有一个满意的效果。
(三)模型结果
根据整个项目的分析以及经验,我们得出几个和资助情况相关度最高的指标是:缺少资金时的解决方法和品牌偏执,以及手机、化妆品的价位。
由此我们可以看到虽然基础性消费是在校生最主要的一项支出,但作为必需消费品,贫困生与其他学生很难形成消费差距,因此有关该方面的指标不宜大权重地纳入指标体系。相反,反倒是那些可选择性消费品以及久而久之形成的消费方式和消费观念在指标体系中发挥更大的作用,因为这是不同学生形成消费差异的重要方面。
(四)模型检验
拟合度是否合格的评判标准,关系着算法的改进和模型的优化等重要方面。如图上所示,数据划分同上,蓝线所代表的训练集上的效果值近似达到了100%,而且红线所表示对新的数据的拟合随着样本数量的增大拟合分数一超过了80%,故交叉熵模型随着数据量的增长显示出较为优化的结果。
四、结语
(一)总结评价
与研究该内容的大部分文章相比,本文创新之处在于并不仅仅止步于建立贫困分析指标体系,而是在此基础上进一步结合当前时代发展利用大数据技术进行数据挖掘,从而根据数据分析驱动决策,达到补助评定客观化的目的。
但本文仅通过外部感知的消费情况对大学生贫困程度进行界定,还应结合学习成绩因素、人际关系因素、生活作风因素、遵守学校纪律因素以及社会公益因素等体现大学生综合素质的指标进行补助评选。此外,所建立的模型只得到了在指标体系中发挥更大作用的维度,并没有进行得到各个指标的具体权重,因此还可以进一步优化模型。
(二)启示与建议
1.完善贫困生评价体系指标
首先应该将消费指标纳入评价体系,并将数据分析方法所得的结果作为一个参考,不再单一地使用经验性的方法来评价。其次根据交叉熵模型分析结果可以舍弃部分与评价贫困生无关的属性,从而大大减轻贫困生评定工作量,使评价指标更加明确和简洁。
2.改进贫困生评价工作方法
高校学生工作部门在遴选贫困生时,除了采取学生自述和地方民政部门开贫困证明的办法外,还应该从外部感知的角度对学生的消费行为进行评价,将模型所篩选出的重要指标作为遴选贫困生工作的重要依据,这样有利于保证贫困生遴选的准确性,进而可保证助学金评定的公平性和公正性。
参考文献:
[1]杨知玲.数据挖掘在高校贫困生评价中的应用研究[D].华南理工大学,2015.
[2]常亚平,宗树阔.中国高校学生贫困度测评体系和评价模型构建研究[J].高教探索,2009(01):119-124.
[3]繆春梅,史吉峰,孙艳华.高校贫困生助学金评价体系的构建[J].2010(02):210-212.
作者简介:胡诗雅(1997—),女,满族,河北承德人,经济学学士,主要研究方向:金融风险。