基于集成学习的MOOC学生辍学预测研究

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:liongliong434
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着流媒体技术的高速发展,大型开放式网络课程被越来越多的人们关注。相比于传统的线下授课模式,慕课(Massive Open Online Course,MOOC)具有更高的开放性,用户可以根据自身兴趣爱好选择课程进行学习。然而,由于高度的自主选择性和缺乏师生之间的实时互动交流等原因,导致MOOC具有极高的辍学率。较高的MOOC辍学率引起用户规模和平台收益的缩减,从而成为制约MOOC平台发展的瓶颈之一。通过对学生的学习行为日志记录进行分析研究,提前寻找出可能辍学的学生,对其采取人工干预手段,有助于提高学生的学习兴趣和课程参与度,降低平台辍学率,从而增加MOOC平台的收益。本文基于MOOC学习者的历史行为数据,提出两种MOOC辍学预测模型,主要研究内容如下:(1)利用学生的学习活动记录构建以周为单位的数据特征,使用KmeansSMOTE算法在安全区域进行数据过采样,能够有效的避免产生噪声数据,从而缓解辍学数据样本存在的不均衡问题。此外,为了使模型能够捕获学生课程学习时的专注度和积极性,本文创新性地构建会话次数和累积会话时间两个特征字段。实验结果表明,新构建的字段能够增强模型的预测能力。(2)将MOOC辍学预测转化为机器学习的时间序列预测问题,基于注意力机制和双向长短时记忆网络(Bi-directional Long-Short Term Memory,Bi-LSTM),提出一种Att-BiLSTM辍学预测模型。通过引入注意力机制,增强Bi-LSTM模型在众多输入特征数据中的信息捕获能力,着重关注对MOOC辍学结果有重要影响的特性信息。在KDDCup2015真实数据集上的实验结果表明,与LSTM辍学预测模型比较,AttBi-LSTM在准确率上提升了0.5%。(3)现有的主流MOOC辍学预测模型,大多为个体辍学预测模型。针对此类模型存在预测精度低和稳定性差的问题,提出一种基于Stacking多模型叠加的辍学预测模型。首先,分析学生的日志活动记录,设计以周为单位的数据特征。然后,构建两层集成学习模型,第一层使用5折交叉验证分别训练3个不同个体辍学预测模型,第二层使用逻辑回归算法(Logistics Regression,LR)并结合第一层的预测结果,进行最终辍学预测。在KDDCup2015真实数据集上进行实验,结果表明Stacking多模型叠加辍学预测模型比个体辍学预测模型有更好的效果。本文研究表明基于Stacking多模型叠加集成学习的辍学预测模型,可以降低模型过拟合的风险,有效增强辍学预测模型的稳定性。
其他文献
下视线阵三维合成孔径雷达(Synthetic Aperture Radar,SAR)利用阵列天线与目标的相对运动合成二维虚拟面阵,结合脉冲压缩技术,获得空间目标的三维分辨能力。然而,这种基于宽带发射信号的SAR系统硬件设计复杂且接收信号不易分离。通过将频率分集阵列(Frequency Diverse Array,FDA)应用到三维SAR模型中,各阵元只需发射单频信号便可获得宽带观测性能,大大降低系
近些年,中国的对外承包业务展现出蓬勃发展的态势,使建筑业日益成为支撑经济发展的重要产业,既得益于“一带一路”战略的深入实施又得益于新型经济的快速发展。在“十四五”规划中提出以拓展基础设施建设为目标,加快完善公共交通基础设施建设,桥梁作为交通运输工程基础设施的重要组成部分,在规模和数量均呈现上升的趋势,且建造时受诸多不确定性风险因素影响较严重,如建设周期长、规模大、跨度大、受力复杂、所需资金多、施工
随着科技不断进步,在许多科学和工业领域产生了大量的数据。这些数据由多种特征表示,形成了多视图数据。因此处理这类数据的多视图学习逐渐成为深度学习、人工智能、神经网络、大数据等领域的研究热点。多视图聚类是多视图学习领域的研究方向之一,经过多年的研究和发展,虽然已经取得许多成就并且应用到实际生活中,但是也存在一些问题。例如,多视图聚类算法需要通过多视图数据预先构造出一个关系图,多视图数据结构复杂,存在不
低照度环境导致图像成像质量下降,图像噪声较多、对比度较低,用于图像分类、目标识别、图像理解分析、超分辨率重建等图像处理时效果不理想。因此需要对该类图像进行照度增强,即提高图像整体和局部的对比度、去噪,适当调整图像背景和边缘。本文利用变分自编码器作为关键技术针对低照度图像增强进行研究,从不同角度分析低照度图像特点,采用多种技术和手段完善低照度图像的图像结构,提高低照度图像的对比度、丰富细节并降低噪声
深度学习相关技术发展势头迅猛,在交通标志识别领域得到了广泛应用。一方面,传统的交通标志识别模型结构复杂,从头训练花费大量时间。另一方面,虽然迁移学习节约训练时间,但是源模型(教师模型)和其衍生模型(学生模型)具有相似的结构和参数,教师模型的对抗性样本容易被其学生模型分类错误。目前可以利用“指纹”识别法准确找到与学生模型对应的教师模型,如果敌手成功攻击对应的教师模型,投入应用的学生模型的安全会受到严
随着日常生产生活对位置服务的需求不断提升,室内定位逐渐成为目前研究热点之一。超宽带(Ultra-wideband,UWB)定位以其厘米级的定位精度成为室内定位的代表性技术,超宽带的定位精度受到非视距传播、多径效应、基站布设等因素影响,尤其是基站的布设阵型直接影响信号的视距传播(Line of Sight,LOS)和非视距传播(Non-Line of Sight,NLOS)、信号到达时间的测量精度等
随着无线通信技术的发展,航空飞行器集群在军事领域的应用逐渐广泛。集群在空中自发形成的航空自组织组网络(Aeronautical Ad Hoc Networks,AANET),覆盖范围广,组网和拆除速度快,抗毁性能强,能够执行更加复杂的任务。由于环境因素的影响和可用带宽的限制,AANET可靠通信对信道的时延和吞吐量有更严格的要求。现在AANET中使用的媒体接入控制(Media Access Cont
长链非编码RNA(简称lnc RNA)在多种生物调节过程中扮演重要作用。一方面,lnc RNA不同亚细胞定位模式让它们能够执行不同的功能,识别lnc RNA的亚细胞位置有利于确定lnc RNA的功能。另一方面,lnc RNA的突变和失调影响多种人类疾病的发展进程,识别lnc RNA-疾病关联有利于揭示疾病的分子机制和探索治疗策略。然而,确定lnc RNA的亚细胞定位及与疾病的关联的生物学实验成本昂
电法勘探是在人工建立的电磁场中,通过观测地下岩(矿)石间所呈现的电磁学性质和电化学性质的差异性进行地质辨识的一种地质勘探方法。电法勘探仪器提供地下勘探信息,物探人员则结合地质资料、岩层构造判断地下矿物质存在的可能性并给出钻井验证的方案。仪器还可为城市工程、地下工程、水利工程等提供科学、可靠的地下构造信息,并作为工程上施工方案的参考资料。传统的时间域激电法存在发射功率大、测点密度稀疏、勘探信息量少、
直接数字频率合成器(DDS)作为雷达系统及通信领域的关键模块,且随着高速数字化时代的到来,其发展迅速、应用逐渐普及。高性能DDS芯片的集成,需要高速、高精度的数模转换器(DAC)。电流舵DAC相对于其他DAC类型具有速度快、精度高、面积小等优点,成为当前较为热门的高速DAC主流结构,广泛应用于DDS中实现数模信号的转换。首先对数模转换器结构进行分析,并对比其优缺点,电流舵数模转换器无需电压缓冲器即