论文部分内容阅读
我国教育信息化相关政策明确提出了大数据在高校教学与管理中的应用方向。大数据技术的蓬勃发展和高校多年来使用信息系统所沉淀的海量数据为此创造了基础。如何运用大数据技术从海量的教育数据中挖掘出具有一般意义的规律,进而帮助实际教育教学工作实现新的转变,是当下的重要且热门的研究课题。结合国内外研究现状、现有的教育数据情况和实际的教育教学管理需求,本文的研究围绕学生的学业、生活、心理与职业选择四个方面开展,系统性研究了每一个方面上的一个关键问题,分别是成绩预测、家庭经济水平挖掘、心理健康状态对社交行为的影响以及职业选择预测。本文将分为四个部分研究以上四个问题。本文第一部分研究了高校学生的行为模式。在高校学生在校期间使用学校提供的信息系统产生的数据基础上,基于心理学提出的大五人格特质理论提取了勤奋度、谨言性、睡眠模式、消费行为特征、行为规律特征等具有一定普适意义的学生行为特征,然后建模了基于共现频率的高校学生社交行为,分析了由此构建的学生线下社交网络中的经济水平特征,进一步构建了社交网络情感分析模型。这项研究是本文研究问题的一个基础研究工作。本文第二部分研究高校学生成绩预测。本文的成绩预测是对学生的成绩排名预测,我们把这个问题抽象问题一个排序问题。通过分析学生行为数据和学生成绩数据之间的相关性,发现学生的勤奋度、谨言性、睡眠模式与学习成绩具有显著的相关性。针对数据分析结果,设计了一个多任务排序学习模型(MTLTR-APP)来预测学生成绩排名。这个模型不仅建模了专业间的相关性也建模了学期间的时间依赖性,同时还考虑了学生的行为相似性。通过在某高校一个年级的数据上训练,在下一个年级的数据上进行测试,验证了模型MTLTR-APP对预测学生成绩的先进性,说明了学期间相关性、专业间关联性以及学生行为相似度都对预测学生成绩起到了重要作用。研究成果可以帮助教育教学工作者提前发现成绩不好或是有异变的学生,以提供早期的干预和引导。本文第三部分研究基于行为的高校学生异常检测。主要包含基于神经网络的贫困异常检测和基于传播动力学的抑郁异常检测两个部分。贫困异常检测是通过将学生划分为不同的贫困等级来实现的,我们将之抽象为一个分类问题。在本文第一部分的研究基础上运用C4.5算法进行特征选择。再根据学生数据的时序性特点,综合CW-RNN和LSTM的优点,提出了CW-LSTM算法来建立高校学生家庭经济困难程度挖掘模型。最后利用某高校的真实学生数据,验证了模型对挖掘高校学生家庭经济水平的有效性和先进性。抑郁异常检测是通过分析学生的社交行为和心理健康状态的关联关系来实现的,我们将之抽象为传播学问题。运用本文第一部分研究内容构建的学生线下社交网络,结合学生的《SCL-90测评量表》测试数据,挖掘学生抑郁程度对社交网络结构所带来的影响,发现无明显抑郁症状的学生更擅长于社交。最后,提出了一套异质平均场理论来刻画信息传播模型,通过计算机模拟实验,研究了学生心理健康状态对高校信息传播过程的影响,发现无明显抑郁症状的学生更容易接收到信息。本文第四部分研究基于集成学习的职业选择预测。职业选择预测是预测学生毕业后的四种选择,与贫困异常检测类似,我们将之抽象为一个多分类问题。结合本文的第一项研究内容,提出了影响高校学生职业选择的代表性因素为专业技能、行为规律、兴趣偏好和家庭经济水平四类特征。在此基础上采用了两种不同的框架来预测高校学生的职业选择。第一种是一个基于Adaboost的有监督式职业选择预测框架。利用某高校的的真实学生数据证明了该框架的有效性,发现所提取的专业技能掌握程度、行为规律性和家庭经济水平特征与职业选择显著相关。第二种框架在第一种的基础上,简化了四类特征的提取方法,并通过生成虚拟集群中心的方式加入学生群体性差异因素,再基于改进的XGBoost的算法(ACCBOX)来预测高校学生职业选择。这套框架采用了生成虚拟集群中心的方法扩大了训练集,同时引入正则关联来弥补真实数据与虚拟集群中心的差异,在真实数据集上的预测效果与第一种相当。研究成果可以帮助高校教育教学管理者优化学生的生涯规划,也可以为职业咨询提供更多的输入信息,为学生开展个性化的职业咨询。还可以预警出可能有失业风险的学生,提醒教育教学管理者给予他们有针对性的就业帮助。