论文部分内容阅读
数字化校园的普及不仅为师生生活带来极大的便利,也为教育数据挖掘(Educational Data Mining,EDM)的研究提供了丰富的数据。EDM运用了数据挖掘、机器学习等技术分析学生在校的多种数据记录,解决教育相关难题,旨在为高校师生提供良好服务。学生在校数据种类繁多,数量庞大,因此本文将充分利用校园大数据分析学生在校行为,实现学业表现预测模型,为教辅人员提供有价值的参考信息,以便做出正确的决策。学业表现预测是EDM最热门的研究领域之一,目前已有众多学者基于校园数据开展了相关研究,但大部分研究使用方法单一,主要通过特征工程提取行为特征,再使用机器学习方法对数据建模。传统的机器学习方法缺乏创新性,忽略了学生间隐藏关系及行为特征不能体现的有效信息。针对以上问题,本文基于图神经网络提出了Dis_GAT(Distance Graph Attention Network)网络用于解决学业表现预测问题,并与传统机器学习方法进行对比以证明Dis_GAT网络的有效性。本文除了结合多种数据源预测学业表现外,并分析学生在校行为,从消费行为、线下交友行为等方面分析学生在校生活状况,以便辅导员及时了解学生在校生活情况。综上,本文主要包含的工作和创新之处有:(1)对学生在校的多种数据进行预处理并分析学生行为。根据多种数据源提取行为特征后,利用K-means算法和孤立森林算法识别消费及成绩变化异常学生,有助于辅导员全方面了解学生个人情况。(2)提出了一种挖掘学生线下社交网络的算法,并对线下社交网络进行可视化,识别孤立点学生。根据“食堂共现”的思想,即当两名学生在规定时间间隔内同时出现在食堂的频次满足一定的支持度和置信度,可认为两人存在好友关系,利用一卡通消费记录挖掘学生线下社交网络,发现孤立点学生。(3)分析学生行为特征与成绩的相关性,评估并分析基于传统机器学习方法的学业表现预测模型结果。首先利用Apriori算法、皮尔逊相关系数等分析学生行为特征对成绩的影响,然后对学生行为特征进行筛选过滤,最后对数据进行建模并对比多组分类器的预测结果,其中逻辑回归分类器表现最佳,Precision、Recall、F1、Accuracy分别为0.75、0.74、0.74、0.85。(4)提出了Dis_GAT网络预测框架,将学业表现预测问题转为图结构中结点分类问题。首先引入了图神经网络理念,将学生数值型行为特征转为图结构数据。然后对图注意力网络进行改进,引入了距离权重系数,考虑了学生前期课程成绩间相似性对后期学业表现的影响。实验结果表明,Dis_GAT网络比其他的方法更加准确,评估指标Precision、Recall、F1、Accuracy分别为0.78、0.85、0.81、0.88,增长率达到了百分之八。