论文部分内容阅读
教育数据挖掘(EDM,Educational Data Mining)运用机器学习等技术来解决教育研究与实践中的问题,涉及计算机科学、教育学和心理学等多门学科。由于EDM的研究成果主要服务于广大师生及教育决策者,它对机器学习模型的可解释性有较高的要求。一方面,EDM的用户一般不是信息技术专业人员,如果模型难于理解,他们可能拒绝使用该模型;另一方面,教育决策者通常要为自己的决策行为负责,如果模型不能给出合理的依据,他们可能不愿使用该模型来辅助决策。在过去几十年中,机器学习模型的可解释性问题一直备受关注,并取得了一些成果,但仍然存在一些问题,例如缺乏对不同模型可解释性的统一度量标准、较少考虑人的认知因素等。而EDM乃至整个数据挖掘领域的可解释性研究也存在诸多不足,特别地,当前研究主要集中于模型建立阶段的可解释性问题,忽略了数据挖掘生命周期中其他阶段的可解释性研究。针对以上问题,本文进行了充分的研究,提出了一个涉及数据挖掘整个生命周期的可解释性研究方案。鉴于分类模型在EDM乃至数据挖掘领域中应用最为广泛,本文只涉及EDM中的分类问题,主要工作包括以下五个方面:(1)系统地研究了数据挖掘中的可解释性问题:在总结数据挖掘生命周期中各个阶段可解释性研究的对象和目标后,提出了一个涵盖数据挖掘六个阶段的可解释性研究方案,并在论文中重点研究了数据理解、数据准备、模型建立和测试与评估四个主要阶段的可解释性问题。特别地,本文以EDM中的分类问题为背景,利用该方案研究了EDM的可解释性问题。(2)提出了一个提高原始数据集可解释性的处理流程:在数据理解阶段,提高可解释性的实质是提升原始数据集的可解释性。故而,提出了一个包含若干种方法的流程,以增强对数据的洞察。该流程包含了降维、可视化、聚类分析、Markov模型和特征选择等多种方法。特别地,提出了两种基于特征间差异程度的特征选择方法,以辅助人们快速抓取数据集中的重要信息。(3)提出了一种两阶段的数据准备方法:在数据准备阶段,提高可解释性的实质是提升待建模数据集的可解释性。EDM分类问题中的原始数据通常是不均衡的,现有的特征选择算法均没考虑到这一特点。故而,提出了一种两阶段的数据准备(TSDP,Two-Stage Data Preparation)方法,解决了数据不均衡情况下的特征选择问题,构建了一个预测准确性高且易理解的待建模数据集。(4)提出了一种解释SVM分类模型的方法:结合认知心理学的理论知识,提出了一个研究黑盒模型可解释性的框架。在该框架下,借鉴认知心理学的范例理论和可得性启发式,提出了一种解释SVM分类模型的方法。该方法模拟了人类认知的过程,解释结果容易被人们所接受。实验结果还表明,该方法比其他黑盒解释算法更加稳定和准确。(5)提出了一种跨模型评估可解释性的研究框架:通过引入机器学习算法对模型的可解释性进行评估,实现不同模型可解释性的比较。首先将不同类型的模型转换为图(graph)并抽取出若干特征,然后通过实验采集与模型可解释性相关的数据,最后使用机器学习算法训练出评判模型,从而实现跨模型的可解释性比较。实验结果表明,该评判模型可准确评估模型的可解释性,还具有较强的泛化能力。本文关于可解释性的研究涉及数据挖掘生命周期的多个阶段,弥补了现有研究的不足。尽管研究对象限定在EDM领域,但许多方法也可方便地移植或推广到其他应用中。本文的研究结果可为数据挖掘和教育领域的研究提供有价值的线索。