论文部分内容阅读
近年来在线学习已经成为学习者获得知识的重要方式,它不仅打破了学习时间和地点的限制,而且可以很好的实现个性化学习,因此在线学习平台以前所未有的规模吸引了数百万学习者参与学习。在线学习平台提供的大型开放式网络课程MOOC(massive open online courses)为学习者提供了丰富多样的学习资源,为学生的在线学习提供了必要保障。与此同时,学生在学习MOOC课程中产生了大量的学习数据,其中包括:学生画像数据,学生学习结果数据,以及学生与课程的交互数据等等,这些多元异构数据反映了学生的学习方式和行为,也给机器学习模型在教育领域的应用提出了挑战。利用大数据分析、机器学习模型和可视化技术,可以采集学习平台学生的学习数据,挖掘有用的学习信息,对数据进行处理、建模,进行学习行为分析与评价,探索数据背后的各种学习行为,然后根据这些技术做出合适的决策来改进学习过程,为不同学习情况的学生提供个性化的管理与教学,提高教育管理效率和学习效率。因此,学习行为分析成为当前教育应用研究的热点问题之一。学习行为的分析挖掘促进了机器学习和深度学习模型的优化,基于机器学习的学习行为分析已有诸多相关研究论文发表,学者们提出了多种模型预测学生学习行为和学习结果,从而提高教育管理和学习效率的分析模型。然而,这些模型在实际应用中仍然存在以下几个问题:(1)大多数早期辍课预测模型无法量化学习者的辍课风险,并对学习者的辍课风险进行可视化分析,从而i不能为最需要帮助的学习者提供个性化的即时帮助。(2)大多数辍课预测模型和学习结果预测都是基于特征工程构建的,采用不同的学习行为特征预测结果可能差别较大,导致预测准确率不高。(3)在线学习数据是多元异构的,目前多数有监督预测模型依赖大量的标注数据,对这些数据进行标注费时费力,成本较高,且存在大量无标注数据未充分利用。(4)机器学习预测模型缺乏可解释性。预测结果以数值表示,无法呈现学习者的学习模式,教师和教学管理人员无法从预测数据了解到哪些视频的哪些片段学生感兴趣,哪些片段是被跳过学生不感兴趣或比较简单的内容。针对上述问题,本文研究了机器模型的优化,提高辍课率和学习结果预测的准确率。除此之外,设计了一个学习行为可视化系统,直观呈现学生的学习模式和过程,辅助分析和解释预测结果,并对学习模式相似的学习者进行聚类分类。本文的主要工作和贡献如下:(1)基于逻辑回归模型和输入输出隐马尔可夫模型,提出了一种早期辍课率预测模型EIARS,该模型基于特征工程,提出了一个提取与辍课率相关重要特征的算法,采用逻辑回归模型,增加L2-正则化转换学习函数平滑连续几周的预测值,减少全局误差,防止模型过拟合,采用输入输出隐马尔可夫模型作为评价模型,根据连续前几周的学习数据预测本周有辍课风险的学生,并结合可视化方法解释、识别有辍课风险和辍课率最高的学生,从而对高危学生进行干预和帮助。实验结果表明该模型较其他传统机器学习辍课率预测模型具有较高的准确率。(2)目前多数辍课预测模型依赖特征工程,需要人工提取特征,成本高、耗时长,难以处理来自不同平台或具有不同特征的不同课程的新数据集。为此提出了一个深度在线预测模型DOP,该模型采用结合LSTM和CNN混合架构的深度神经网络模型,由数据转换算法DT将原始日志按照时间和学生行为转化为一个二维矩阵作为模型的输入数据。由于学习者在给定时间段的学习行为受其历史行为的影响,结合CNN和LSTM模型的混合架构,能够有效捕获原始数据中的时间因素,自动提取重要特征,从而得到较高的辍课预测精度。为了解决类别不平衡问题,定义了基于成本敏感技术的自定义损失函数CLF,根据学习者的活动和实际学习课程的天数推算成本,从而针对不同的类别调整权重,解决不平衡数据对预测结果的影响,提高辍课预测性能。来自不同平台数据集的实验结果表明该方法较其他辍课率预测模型具有较高的准确率。(3)鉴于现有的学习行为分析模型大都无法对学习者的学习模式进行分类,且多数模型无法根据学习者的视频学习细节(如暂停、快进、回退等)分析学习者,提出了一个基于图卷积神经网络的异构图半监督分类模型,简称Res-GCN。该模型构建了一个异构知识图G=(V,S,Xv,Xs,E),表示学习者、课程视频和知识概念之间的关系。模型将学习者的视频学习分为四种模式:“高参与度”、“正常参与度”、“有风险”和“有潜在风险”进行辍课率和学习结果预测。由于已有数据集缺少标记数据,提出了一个能够自动标记输入和输出数据集的标签函数LF,降低了数据标记成本。实验结果表明,与传统机器学习模型和相关工作相比,Res-GCN模型具有更高的分类精度。(4)为了提高机器学习模型的可解释性和透明性,设计了一个可视化分析系统(MOOC-ASV),对学生的视频学习数据进行可视化分析,辅助机器学习模型解释辍课率和学习效果的预测结果,从而优化教学策略,帮助学生提高学习效率。该系统基于图论,构建了学习者-视频二部图GLV,引入Louvain社区发现算法得到学习者节点的结构,引入struc2vec算法捕获学习者结点结构的相似性,采用k-means聚类算法对struc2vec得到的结点向量,将学习行为相似的学生聚在一起,从而识别辍课率风险高的学生类别。此外,该系统提出了使用了利用率UR对学生结果进行评估的指标,能够有效评估学生的学习效果。