论文部分内容阅读
随着网络信息技术的遍及和智慧校园建设的推进,高校陆续推出各式各样的信息化平台,其中校园一卡通作为学校师生校园生活不可缺少的工具,其每天大量生成的使用记录对高校学生管理路径具有不可忽视的研究意义。学生奖、助学金评定作为高校学生管理工作中的重要环节,也是帮助高校完成贫困识别和学业预警的重要依据,但现在很多高校仅仅将其当作一项常规工作,未能从服务学生管理的角度出发,忽视了丰富的校园资源中隐藏的价值。基于校园大数据的高校学生管理工作路径探析具有重要的理论研究和实际应用价值。本文结合机器学习算法对校园一卡通消费数据进行探索研究,为高校管理者实现贫困学生精准识别、学生学业风险预估提供了新的思路。本文主要做了以下工作:(1)多方采集论文所需要的数据,并对获取到的校园一卡通消费记录、学生奖助学金评选结果等原始样本进行预处理,得到符合模型要求的数据输入。(2)为了解决逻辑回归模型的特征工程问题,构建一种基于LightGBM和逻辑回归的预测模型,并利用Sklearn调取OVR封装函数实现了逻辑回归的多分类,同时设置好模型的参数及评价指标。从UCI中选取六个不同的公共数据集(Breast Cancer Wisconsin、Diabetes、Heart Disease为二分类数据集,Seeds、Wine、Wall-Following Robot Navigation为多分类数据集),分别用LightGBM模型、LR模型和LGB-LR模型在六个公共数据集上训练,并结合5-fold交叉验证法对模型进行了验证。通过评价指标评估LGB-LR模型在六个公共数据集上的预测效果,得到LGB-LR模型性能在LightGBM模型、LR模型的基础上有所提升的结论。(3)为了验证逻辑回归在不同特征选择方法下的预测性能,构建基于1L惩罚项的逻辑回归模型和基于PCA的逻辑回归模型,并与LR模型、LightGBM模型和LGB-LR模型一起进行对比实验,结合贝叶斯优化调参得到模型最优参数,最后利用10-fold交叉验证法进行模型验证。针对贫困识别问题,LGB-LR模型的准确率、F1值和AUC值分别为89.54%、87.49%和0.87,各项指标几乎全部高于其它四个模型,仅在F1值上略低于LightGBM模型。针对学业预测问题,LGB-LR模型的准确率(微平均)和宏平均分别为77.72%、73.82%,略低于LightGBM模型,但相较其余三个模型更优。综上可得,LGB-LR模型预测效果相对理想,特别适用于处理二分类问题。而在处理多分类问题上,其准确率及宏平均值均高于其它几种特征选择下的逻辑回归模型,说明LGB-LR模型对高校学生贫困精准识别和学业风险评估有一定的参考价值。当然,本文中使用到的逻辑回归模型在多分类问题上还存在一定局限性,增加数据来源多样性和提高多分类模型预测精度是本文今后的研究重点。