论文部分内容阅读
越来越多的教育数据随着高校应用系统和硬件设备的汇总不断地产生,如何从这些大数据中挖掘出给各层决策者更加科学、准确的决策信息,给高校信息化建设者带来了重大挑战。学业水平分析是教育数据挖掘中不可忽视的一环,为学校全面客观地评价学生提供了依据。高校管理者可以据此掌握学生行为特点和模式,促进个性化教育,及时发现并干预学生异常行为,提高教学管理质量及学生服务水平。目前,国内外关于高校学业水平分析的研究都是基于简单数据、简单模型的浅层次分析,面向领域单一,有的是面向校园一卡通消费数据,有的是面向在线教育平台数据,尚未有对于网络行为和其他数据结合起来进行学业水平的影响研究。本文针对现有研究领域的缺陷和不足,将关注点集中于网络行为,以国内某高校本科学生为例,对学生网络行为数据、一卡通数据及学业成绩数据进行分析。实证分析表明,网络行为数据和一卡通数据的结合能够更加有效地反映学业水平,并产生更为准确的预测。本文具体工作如下:(1)构建学生行为“画像”特征库,提出了“三个方面”网络行为、网络粘度、生活规律性来有效地刻画学生行为;针对传统DBSCAN算法,提出了基于距离优化的DBSCAN算法,该算法对邻域半径δ进行了优化,通过计算minPts个样本点间平均距离选择初始邻域半径δ,并在聚类过程中使用核心点与其δ邻域内样本点之间的距离系数动态地调整邻域半径,以加快聚类收敛速度;使用该算法分别从“三个方面”对学生行为描述指标进行聚类分析,得到了具有不同行为特征的学生群体;相比于传统DBSCAN算法,距离优化的DBSCAN算法在学生行为方面聚类效果和准确性提升了9.2%,综合性能表现优于传统DBSCAN算法。(2)学业水平影响因素的可视化分析。详细描述了学业水平的影响因素在不同学生群体之间的表现规律及差异性并采用ANOVA F-test检验筛选出对学业水平表现有显著影响的特征。(3)提出了基于多分类器的异态N-Adaboost算法,该算法基分类器Γ()由N个分类器H4)(x)构成,并由H4)(x)投票产生结果,通过对Γ()迭代更新样本权值从而得到最终的预测结果。通过对不同组别学生的学业成绩预测证明,基于多分类器的N-Adaboost模型在学业水平预测方面准确度获得了显著提高,达到了73.29%(“及格与不及格”组)、73.74%(“优异与非优异”组)和81.36%(“优异与不及格”组),均高于其他分类器。并且分析了不同N对于预测性能及准确性的影响,实验得出N>3时,模型在时间上的消耗程度远大于预测精度的提升。该模型在传统Adaboost模型的基础上改进了构成基分类器的种类,将各分类模型优势互补,提高了算法“短板”,性能和预测准确性方面获得了有效提升。(4)设计并实现了学业预警系统,基于N-Adaboost预测模型使用Django MVC框架,设计了具有三层架构的预警系统:数据接入层、数据处理层、数据显示层。详细介绍了该系统包含的四个功能模块:基本信息模块、网络行为模块、可视化模块和预警模块,并以某学院预警页面为例,对系统的功能页面及工作流程进行了说明。该系统为学校管理者提供了学生个人信息、网络行为及学业成绩预警等多方面功能,并在学工部门得到了实际应用,具有较好的实际意义。