论文部分内容阅读
随着我国教育信息化的不断深入,个性化教学系统得到了快速的发展。该类系统通过对海量学生学业数据的收集,一方面给学生提供个性化的诊断报告,推荐有针对性的学习资源,以提升学生的学习效率;另一方面辅助老师更科学的做教学决策,以提升老师的教学效率。如何对学生学业能力进行准确的建模,是该类系统所面临的首要和基础性任务。随着人工智能及大数据技术在诸如医疗、金融、城市管理等行业领域中的成功应用,交叉领域的研究方法也出现在新兴的教育领域的学生学业能力模型构建任务上。然而,针对这个任务会面临如下挑战:首先,学生学业数据往往是极度稀疏的,建模方法能够利用的学业信息十分有限;其次,模型需要具有领域解释性,而传统机器学习模型在实际的个性化教学系统中发挥的作用有限;最后,为了提升模型构建质量,如何将更多的跨学科知识融合到模型中是一个难点。本文将围绕个性化教学系统中的学生学业能力模型构建任务进行深入的研究和讨论,主要贡献如下所述。第一,本文提出了一种融合试题题面的学生学业能力模型构建方法。预测学生在试题上的得分的精度是衡量学生学业能力模型好坏的一个重要指标。针对得分预测任务,已有的建模方式要么只用了学生答题日志,要么将试题简单的用知识点(或者考点)进行表示,造成了大量的信息丢失。针对如上问题,本文创新性的将学生答题日志和对应试题文本进行统一建模,提出了 EERNN框架。具体的,在试题信息编码阶段,本文利用word embedding和双向LSTM等技术将试题的语义信息进行自动抽取和表示;在学生能力编码阶段,本文首先将试题语义信息和学生答题数据进行合并,再利用LSTM技术建模学生的答题过程;最后,本文提出了两种得分预测策略,其中EERNNM策略简单高效,而EERNNA策略利用注意力机制(attentionmodel)技术抓住了和待预测试题相关的学生学业能力状态,有效解决了答题历史序列较长情况下,LSTM结构容易遗忘历史信息的问题,进一步提升了得分预测的精度。该框架能够适用于大部分场景下的学生学业能力模型构建任务,相比于传统模型,其建模精度高,在冷启动和模型可解释问题上具有一定的处理效果。不过该框架对训练数据有较高的要求,即学生的答题历史序列需要足够长。而某些应用场景下,特别是个性化学习系统刚上线时,无法满足这种训练数据要求,因此引发了本文的下一个章节。第二,本文提出了一种基于知识图谱的学生学业能力模型构建方式。一方面个性化学习系统刚上线时,海量学生仅仅在系统上学习过少量题目,从而学业数据极度稀疏;另一方面该类系统需要模型具有高度的领域可解释性,以便后续进行符合教学逻辑的学习资源推荐。面对如上挑战,本文提出的KAEM框架创新性的将知识图谱和自编码技术引入学生学业能力模型构建任务中,并以得分预测结果作为建模精度的衡量指标。我们以锚题图谱的难度偏序关系作为教育专家先验知识的载体,将此类信息巧妙的融入到建模过程中,有效解决了学生学业数据极度稀疏的缺陷,同时使得模型预测结果具有高度的可解释性;而自编码技术的引用,使得模型能够从学业大数据中挖掘出学生和试题、试题和试题之间的关系,提升建模精度。该框架在基于锚题图谱的个性化学习场景下,具有明显的建模优势和极高的应用价值。第三,本文提出了一种典型学生模板挖掘方法用于分层教学。分层教学是一种新兴的群体个性化的教学方式。该方式下,老师会针对不同学生群体的特点提供不同的教学方案。为了辅助老师进行分层教学,快速了解群体学习状况和个性化资源推荐,需要从大量学生学业数据中挖掘出一些典型的学生模板,并且能将每个学生对应到少数的典型学生模板上。这是一个新颖且具有挑战的研究任务,该任务将学生学业能力以典型学生模板为维度进行模型构建。本文在已有字典学习相关技术的基础上,提出了一种凸字典学习方法。该方法加强了数据重构过程中对字典元素的约束,限制字典元素必须在原有数据对象的凸包中。该思路使得挖掘出的字典元素能够接近于某些典型的原始数据对象,一方面在保证数据重构精度的基础上,保留和增强了原始数据中的典型的类别信息,有利于数据二次加工;另一方面挖掘出的典型模板保持了原有的物理含义,具有较强的领域可解释性。本文还提出了针对该方法的高效算法,并给出严格的收敛证明。无论是在教育类数据上,还是在图像数据集上,该方法挖掘出的典型模板都具有较高质量。这说明了凸字典学习方法具有一定的领域泛化性,及较高的学术理论研究价值。第四,本文涉及的模型框架具有极高的实际应用价值。本文除了对这些模型框架进行充分研究和实验分析外,还在各个章节中穿插描述了如何将本课题应用在教育领域下的组卷系统、个性化学习系统、分层教学系统中。这些阐述更加印证了本课题,即学生学业能力模型构建的现实意义。期望本文该部分内容能引起相关学术研究学者、教育产业界的注意和兴趣,促进该方向的研究及应用得到进一步的发展。