论文部分内容阅读
在很多行业中,大数据都发挥着重要作用。大数据被用于医院、大学、餐厅、银行等场所,大数据的存在对于现代人工智能下的互联网系统非常重要,尤其是教育系统。现在,国内外大学每时每刻都在产生与大学生、工人和教师的日常生活相关的大量数据,对这些数据的合理应用有助于大学教育的管理。本研究所使用的大数据是兰州理工大学的相关数据。主要关注图书馆数据、校园内学生卡的消费、学生成绩和学生入学信息等方面的数据。通过对这些数据的处理和分析,对学生的行为进行全面的研究。通过清理和合并所有数据将学生数据划分为四个方面:成绩、借书数量、学生专业和每年消费数据。本文工作中,首先使用FP-Growth挖掘工具获取本研究所使用数据,使用Rapid Miner工具和Python语言(Pandas包)来获取数据之间的关联,并选择最有价值的特征来预测学生行为。然后,使用K-means算法对学生数据进行聚类,根据聚类结果挖掘不同学生的学习成绩、图书借阅数据和校园卡消费数据之间的关系,以及不同学生之间的行为差异。使用肘部方法来确定K均值的最优聚类数。之后,学生现有的实际成绩被用来预测他们下一年的成绩。在这一步中,使用逻辑回归(LR)、随机森林(RF)、朴素贝叶斯(NB)和神经网络(NN)进行预测。神经网络的准确率为77%,朴素贝叶斯的准确率为76%,逻辑回归的准确率为77%,随机森林的准确率为76%。结合逻辑回归(LR)、随机森林(RF)、朴素贝叶斯(NB)和神经网络(NN)的特点,提出了一种新的分类模型,根据学生的行为预测学生的表现。本文提出的新的多分类模型的准确率达到了78%的准确率,与其他分类模型相比,其性能最好。最后,分析预测结果并计算特征重要性排名,实验结果表明,数据特征重要性排序依次为:学生的图书借阅量,学生专业,最后一学年的成绩,卡消费金额的负重要性特征值。基于特征重要性方法的结果表明,鼓励学生从图书馆借阅书籍并选择符合他们兴趣和优势的专业是有帮助的。此外,教育学生过度支出对学习成绩的潜在负面影响是有用的。