论文部分内容阅读
如今数据爆炸时代已经来临,传统的数据处理技术已经不能满足海量数据的处理需求。随着信息技术的发展,以Hadoop为首的众多大数据处理技术已经广泛应用到互联网、商业、医学、金融业以及工业等行业,而在教育中的应用确很少。因此本文应用Hadoop集群平台对本校的学生成绩数据进行了分析和处理,并且研究了一种基于Map Reduce的关联规则算法,提高了关联规则算法在处理海量数据时的效率,同时挖掘了课程之间的关联规则。本文的工作主要分为以下两个部分:首先学习了Hadoop平台的核心架构—HDFS和Map Reduce,采用HDFS实现学生数据的存储。在深入了解到Map Reduce编程模型后,针对传统Apriori算法的局限性,实现了一种基于Map Reduce编程模型的改进算法,并通过实例验证了改进后算法的可行性。然后通过改变数据集的大小和改变最小支持度阈值以及最小置信度阈值这三种方式对这两种算法的性能进行了对比,实验证明,经过改进Map Reduce Apriori算法的性能在各个方面都要优于传统的Apriori算法。其次本文搭建了Hadoop集群平台,将改进的算法应用到真实的学生成绩数据中,挖掘出了课程之间隐藏的关联关系,同时本文也应用Hadoop平台进行了一些统计分析的工作。本文的主要创新点为:(1)根据Map Reduce编程模型的特点,对传统的Apriori关联规则算法进行了改进,改进的算法不仅实现了发现频繁项集这一过程,同时也根据发现的频繁项集筛选出了强关联规则;(2)通过对大数据技术的学习和学生数据的分析,本文搭建了Hadoop集群来分析和处理真实学生成绩数据。高校中时时刻刻都会产生大量的数据,同时教育数据中隐藏的潜在价值也是无穷无尽的,更值得我们去探索。如果能将如此丰富的教育数据转化为有价值的教学研究成果,并且应用到改善教学决策的制定和实践中,那么对于各大高校和教育研究机构来说意义非凡。希望通过本文的工作能为以后的研究学者提供一个方向,也能为学校的教育工作者在以后的教学管理上提供借鉴。