基于特征选择和Stacking框架的学生学业水平预测研究

来源 :吉林大学 | 被引量 : 0次 | 上传用户:f342829075
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线学习已经成为人们学习生活的一种潮流,在线学习学生学业水平的预测在目前以及未来都将会是一个不可避免的难题。根据学生日常表现以及一些个人特征,准确地对学生学业水平进行预测,这会对学生了解自我学习程度有很大的作用,并且在针对性教学、学业预警等方面,可以给出指导性建议。为了探究数据质量和融合模型在学生学业水平预测中的作用,并提高模型预测能力,本文构建了基于特征选择和Stacking框架的学生学业水平预测模型(命名为Stacking融合模型)。本文的具体工作如下:第一,本文针对在线学习数据的特征种类多样、数据包含离散特征与连续型特征等特点,对数据的特征含义、种类、平衡性、缺失值等信息进行了分析及处理;针对ID3模型不能对连续型数据进行处理的特点,采用等宽划分的方式对连续型数据进行了离散化处理,保证了实验中所有树模型输入数据的一致性;针对sklearn库对数据的要求,对所有数据进行了数值映射,保证了实验的可操作性。第二,本文针对Stacking框架融合过程中,基模型选择的盲目性、不确定性等特点,在预测模型构建之前加入了模型选择的过程,用来选择可用于融合的模型与可用于特征选择的模型。本文选用ID3算法、CART算法和随机森林算法分别构建学生学业水平预测模型,根据模型预测结果,对模型进行评估与选择。通过模型选择,直接选出最适合融合的两个模型,用其进行融合实验,避免了多次融合实验的进行,节省了操作时间;通过模型选择,选择表现最好的模型进行特征选择,可以最大程度地保留有效特征,避免数据损失。第三,本文构建了一种基于特征选择和Stacking框架的学生学业水平预测模型。首先利用在三个模型中表现最好的树模型(随机森林预测模型)对数据样本进行特征选择,从而过滤了冗余数据,保证了输入数据的有效性。此外,基于两层Stacking框架,使用XGBoost算法将在三个模型中表现第一、第二的树模型(随机森林预测模型、ID3预测模型)进行融合,构建Stacking融合模型,从而提高了模型的准确率与在各个类别上的分类正确率。通过将特征选择与Stacking框架相结合,极大地提高了模型的准确率,增强了模型的泛化能力。通过参数优化,本文提出的Stacking融合模型,最终模型预测准确率达到了90.63%,对L类别的分类正确率为93%,对M类别的分类正确率为90%,对H类别的分类正确率为88%,相较单个的决策树模型和随机森林模型,预测准确率和分类正确率均有了极大的提升。此外,通过对Stacking融合模型的特征重要性进行分析,本文对学业预警、针对性教学等提出了相应建议。
其他文献
目的有研究表明DNA修复基因XPC、ERCC1及XPF与HCC易感性相关。本研究通过RT-PCR测定177例HCC中XPC、ERCC1及XPF的表达,探索XPC、ERCC1及XPF在HCC中的临床意义,为监测HCC复发转移、评估预后寻找新的分子标志物。方法收集2008年10月-2013年12月在广西医科大学附属肿瘤医院肝胆外科施行肝癌根治术的177例HCC患者的肝癌组织标本作为研究对象,其中21例
网络信息安全的地位随着互联网技术的普及和蓬勃发展而日益凸显,针对网络信息所发起的网络攻击日益密集,这就给保障网络信息安全的各大门户提出了新的挑战,各大门户均使用人
多年来,欧盟已成为国际舞台上最具影响力的行为体之一。时至今日,欧盟已成为全球各国经济一体化的最为凸显的案例。与其他行为体相比,欧盟拥有独特的地位,值得学者们加以密切关注。现在,欧盟作为产业核心和经济力量,决定了整个西欧地区的经济、社会和政治发展的性质与发展趋势,也决定了西欧地区在世界经济中的地位。本文从欧盟经济一体化的缘起和发展展开研究,探讨了欧盟经济一体化的特点,继而分析乌克兰是否有机会成为欧盟
小说教学在整个初中蒙语文中占有着举足轻重的地位,而我们的小说教学现状却并不乐观,没有达到一个比较理想的效果,与其在教材中的地位相匹配。本论文以初中蒙语文课程中小说为研究对象,在统计分析问卷调查所搜集材料的基础上揭示了初中蒙语文课程小说教学中存在的问题并提出解决问题的一系列措施。论文由:绪论、正文的三章、小结等五部分组成。绪论中,介绍了选题的原因、研究意义、研究概况、研究方法、研究材料来源等。我国是
随着科学技术的迅猛发展,人们对于科技信息交流的需求日益迫切和多样化。由于科技文献富含形式化内容的特点,传统的全文检索方式已无法满足科技工作者的实际需求,实现基于科技文献中的形式化内容如数学表达式等来获取科技信息成为亟待解决的问题。通过对科技文档中数学表达式结构的分析和英文科技文档中词语语义的归纳,面向科技信息检索的实际需要,针对传统基于数学表达式的科技文档检索方法难以满足实际需求的问题,研究与设计
本论文主要对心室后负荷阻抗模型进行了改进研究。本文基于流体网络理论与大血管段的血流特性提出了非线性流阻的九元件阻抗模型,并参考分数阶理论在PID控制器的频域分析方法,分析了分数阶阶次对阻抗模型的影响。通过将阻抗模型放入心血管系统建模分析,验证了阻抗模型的合理性,并分析了阻抗模型分数阶阶次对心血管系统参数的影响。本文共6章,第1章阐述了论文的研究目的和意义,并简述了流体网络理论的应用背景,分别介绍了
根据《中国流动人口发展报告(2016)》数据显示,2015年全国流动人口达到2.47亿人,其中包含着大量流动儿童。由于流动儿童长期处于流动状态,家庭卫生意识薄弱,疫苗接种率相对偏
我国当下正处于社会转型的关键时期,新旧法律制度正在变迁和更迭,法治的重要性被推向了社会发展的高潮,对司法的独立性以及法官队伍专业性、职业性等方面的构建也提出了新的要求。司法改革的发展并不是无根之源,而是深深地扎根在中国人民的当代实践中。两千多年的封建专制的压迫使得陈旧观念深深根植于人们的头脑中延续到现代。俗语有云“心病还需心药医”,我们应该从传统中去找寻现代法治所需的灵药,推动法治建设的发展。循吏
严重的地区冲突依然是当今世界发展面临的主要难题,抑制和消除冲突是国际援助的主要目标之一。虽然已有大量的国际援助致力于和平建设和安全治理,然而援助成效并不乐观。近年来,新兴援助国的兴起在援助体系中发挥越来越重要的作用,为援助国提供不同于西方传统援助的模式。中国作为重要的新兴援助国家,积极参与全球治理工作践行“人类命运共同体”的倡议,以和平的方式化解矛盾和冲突,同时在平等公正的基础上帮助本国发展,实现
本文以柏克称之为“政治生活与道德生活的指导者、调解者和最高标准”的审慎观念着手,分析了柏克对“光荣革命”、法国革命与美洲革命的不同看法,并论述其审慎政治观念的内在