论文部分内容阅读
科技的进步与信息量爆炸式的增长为大数据时代的到来奠定了基础。自2010年以来“大数据”,“数据挖掘”,“机器学习”已逐渐成为当下最热门的词汇。如今数据的重要性已经毋庸置疑,各行各业都在积极的使用数据挖掘技术来探索他们持有的数据所包含的潜在价值。教育部门也积极的使用数据挖掘技术来对教育教学过程进行改进。教育数据挖掘(Educational Data Mining简称EDM)是数据挖掘技术应用于教育领域所产生的一门学科。EDM不是一门简单的计算机技术应用学科它涉及到的学科包含教育学、心理学、统计学乃至社会学等。EDM最早也最流行的研究之一是学生表现预测(Predict Students’Performance简称PSP)。高校虽然已经有非常丰富和完善的管理系统及工具,但是教育管理工作(比如奖助贷、学生思想行为引导等)还是存在不小的困难,因为系统所收集的信息是静态的,也是不完全的。比如高校虽然有学生信息管理系统,但是教育教学管理者想要了解学生的即时状态只能通过线上或线下的方式与学生取得联系;另外如果一个学生出现了精神方面的问题,教学管理者不能在系统中及时的发现这些问题,他们所能做的也只是在这个学生的问题暴露出来之后提供一定的帮助,这也就是一种典型的出现问题再解决问题的管理方式。显然这样的管理是不够高效的,高效的管理方式应该是尽早发现问题,在问题变得严重之前解决问题。教育数据挖掘为提高学生管理工作的效率和质量提供了可能。学生管理工作主要包括学生心理健康辅导、奖助学金评定、就业指导等。传统教学管理工作中存在的问题,通过教育数据挖掘技术能得到很好的改善。比如本文的研究就是为了通过教育数据挖掘技术来分析学生的校园卡消费记录,来辅助学生管理工作。在本文的研究中我们通过对大量的校园卡消费记录的预处理,分析整理出学生在食堂、超市、网络等方面的消费情况,然后通过对预处理之后的数据进行分析提出了一种评分算法。同时也结合经典的数据挖掘算法来对比分析贫困生识别结果,实验表明决策树模型的分析效果最好回归率(recall)可达76.4%,精确度(precision)为91.1%。根据研究结果我们也开发了相应的系统,并且本研究的结果也已经作为奖学金的重要参考指标。另外我们也对学生的校园卡消费记录和历史的成绩记录进行了对比分析。我们首先对成绩和消费数据进行预处理,然后根据辅导员的反馈和相关研究结果,提出了作息习惯对成绩有较大影响的合理猜想。根据这些猜想从校园卡消费记录中计算出相应的特征。由于奖学金是学生成绩最直观的反映,所以我们通过主成分分析和Boruta特征选择算法选出了若干个对奖学金分类重要的特征,然后通过奖学金预测检验这些特征的预测效果。在确定所选特征之后,将所选的特征用于学生学业风险预测,实验结果表明在朴素贝叶斯模型上使用选出的6个特征预测学业风险的Recall可达79.38%。对比以上特征与学生学业风险的相关性,我们发现这些特征学业风险的相关系数都比较高,这在一定程度上也说明所选特征确实与学生成绩存在较大的关联。也表明校园卡消费记录对于评估学生学业风险有一定的研究价值。