论文部分内容阅读
[摘 要]数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系,采用关联规则的Apriori算法和改进后的Apriori算法对郑州职业技术学院学生各门课程成绩进行分析,从而发现课程之间的联系和基础课程对专业课程的影响,为教务昔理部门安排课程 提供参考。
[关键词]数据挖掘 学生成绩 关联规则
中图分类号:TQ597.5 文献标识码:TQ 文章编号:1009―914X(2013)34―0508―01
高校教务管理系统每学期都会产生大量的学生成绩数据,这些数据主要用于记录学生在上学期间的学分等学籍档案,其潜在的使用价值还远没能得到充分的挖掘和利用。仔细研究每学期学生的专业基础课和专业课成绩数据,我们会发现学生对于这两类课程的学习存在着一定的关联与前后顺序关系,不同专业、不同年级的专业基础课和专业课课程之间也存在着关联以及不同专业学生对于该类课程的选取也存在着一定的模式。
1、经典关联规则算法
为了更加有效地利用数据库中的数据,从数据库的相关数据集中提取出更高层次的大量的有关学院各专业学生的基础课与专业课成绩的潜在规则,找出它们之间的一些规律和影响学生成绩的深层因素,下而详细介绍经典Apriori算法如何挖掘学生教务成绩来说明课程之间有一定的关联和前后顺序关系。
1.1算法思想
Apriori算法是最经典的关联规则挖掘算法,是由A}rawal首次提出的,是基于计算候选集的递推方法,其思想是利用已知的高频数据集推导其他高频数据项集,是一种宽度优先算法[2]。该算法的主要工作在于寻找频繁项集,它利用了频繁项集的向下封闭性,即频繁项集的子集必须是频繁项集。
在该算法中调用Apriori}en(Lk-1)是为了通过k-1频繁项目集产生k一候选集。该算法主要由拼接和修剪完成。
1.2应用勺riori算法对学生成绩进行挖掘
学院各类课程的信息中的数据项存在一定关系。木算法挖掘的目标是基础课与专业课之间的关联,应用该算法分析学院学生各类课程中可能存在的各种关联以及各种关联的程度如何,从而进一步分析其中存在的因果关系。规则1说明:((C语言》、《数据结构》的分数在80分以下的,则《计算机软件基础》课程的成绩也在80分以下,这条规则的支持度是34.5%,置信度是92.3%;该规则与实际教学经验相符合,说明《C语言》、《数据结构》的学习与《计算机软件基础》有较强的联系。因此相关教研室在制定教学计划时应考虑《C语言》、《数据结构》课程的学时应不得少于《计算机软件基础》的学时;同时《C语言》、《数据结构》课程的开设时间应先于《计算机软件基础》课程的开设时间。
应用Apriori算法对学生成绩进行挖掘从一定程度上说明了某些基础课与专业课之间的关联,比如某些基础课学不好导致某些专业课分数也较低的规则可信度较高。学生课程的分数虽有较大的人为因素,比如对于某些学生较难学、不易理解和接受的课程,分数普遍较低,但总的来说,挖掘的规则有一定参考价值。
2、关联规则挖掘算法的改进
2.1Apriori算法的缺陷
经典关联规则Apriori算法在大量数据的挖掘过程中,必须经过逐层的重复连接与运算步骤,才能找出所有的频繁项集。它在每一层中都会先产生大量的候选项集,而每一个候选项集又都必须与数据库中的每一笔事务记录做比较,不断地扫描数据库以找出所有符合最小支持度限制的频繁项集,直到找出所有频繁项集,而后再利用这些频繁项集探讨事务之间的关系,推导出所有的关联规则。该算法的特点是反复与数据库中的事务记录比较,耗费大量的时间与内存空间。
2.2挖掘结果的运用
我们以郑州职业技术学院教务管理中的学生成绩库中生成的成绩数据为样木,采用改进的Apriori算法得到《C语言》成绩80分以上的学生,《数据结构》成绩也是80分以上的可能性近50%,这样相关授课教师就可知道这两门课程之间存在一定的联系。同样,我们可以看到其它课程之间的关联,所以教务管理人员以及教研室教师可以通过合理安排相关课程的开课时间、加强前期课程的教学来提高后续课程的学习效果,这对于教学计划的修订起到一定的提示作用。改进的Apriori算法挖掘结果以文字及图表的方式对大多数学生的学习成績进行挖掘,提供给教务管理人员及相关教研室对课程进行优化处理,调整各课程之间的关系,使其更加符合学生的学习习惯。对某一个特定的学生用改进的Apriori算法挖掘可以使教师掌握该学生对于某门课程的学习状况和学习进度,可以对该学生进行学习建议。
3、实验结果及分析
我们以郑州职业技术学院2006级计算机应用技术专业学生的经过预处理后的成绩数据作为数据源进行仿真实验,学生成绩记录4200条,运用经典关联规则 Apriori算法和改进后的Apriori算法,从中分别抽取830 } 1330 } 1830 } 2330 } 2560五组事务记录条数,采用同样的最小支持度对学生各类不同课程成绩记录进行对比挖掘实验来挖掘各类课程的相关性。运行环境为256MB主存、WindoweXP,2GHz的CPU,不同记录条数在两种不同算法中的挖掘结果得出了采用同样最小支持度对于不同事务记录条数进行比较时,两种算法在执行时间方而的区别,从实验结果来看,改进的Apriori算法实现了预期的目标,与同类算法相比,该算法具有挖掘结果准确、速度快、运算量小、时间短、空间利用率高等特点。同时该图也反映了这两种算法的最小支持度与时间的关系:最小支持度越高,所需要的时间越多;对于不同的最小支持度,改进Apriori算法所需时间比经典Apriori算法所需要的时间短。通过以上分析,综合关联规则挖掘结果,得到如下结论:学生的学习成绩与课程之间存在很大的关系。加强基础课程和专业基础课程教学,有助于学生后续专业课程的学习和提高。
4、小结
木文主要对学院在校学生成绩分析与预测的关联规则进行了挖掘,在挖掘该问题的过程中,将经典的Apriori算法与改进后的Apriori算法进行了比较与分析,比较结果证明了改进后的Apriori算法在程序运行的时间效率上明显提高,同时从海量数据中挖掘出基础课程与专业课程的关系,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。
参考文献
[1] 康俊霞.关联规则挖掘算法在教学上的应用[J].河北工业科技学院学报,2008(4).
[2] 土伟勤,郑海A}Y'lOY'1算法的进一步改进[J].计算机与数字工程,2009(4)
[3] 吴斌,肖刚,陆佳炜.基于关联规则挖掘领域的算法的优化研究[J].计算机工程与科学,2009(6).
作者简介
王玉林,(1992-09),男,河南省新乡市人,郑州大学信息工程学院2010级软件工程专业本科生。
[关键词]数据挖掘 学生成绩 关联规则
中图分类号:TQ597.5 文献标识码:TQ 文章编号:1009―914X(2013)34―0508―01
高校教务管理系统每学期都会产生大量的学生成绩数据,这些数据主要用于记录学生在上学期间的学分等学籍档案,其潜在的使用价值还远没能得到充分的挖掘和利用。仔细研究每学期学生的专业基础课和专业课成绩数据,我们会发现学生对于这两类课程的学习存在着一定的关联与前后顺序关系,不同专业、不同年级的专业基础课和专业课课程之间也存在着关联以及不同专业学生对于该类课程的选取也存在着一定的模式。
1、经典关联规则算法
为了更加有效地利用数据库中的数据,从数据库的相关数据集中提取出更高层次的大量的有关学院各专业学生的基础课与专业课成绩的潜在规则,找出它们之间的一些规律和影响学生成绩的深层因素,下而详细介绍经典Apriori算法如何挖掘学生教务成绩来说明课程之间有一定的关联和前后顺序关系。
1.1算法思想
Apriori算法是最经典的关联规则挖掘算法,是由A}rawal首次提出的,是基于计算候选集的递推方法,其思想是利用已知的高频数据集推导其他高频数据项集,是一种宽度优先算法[2]。该算法的主要工作在于寻找频繁项集,它利用了频繁项集的向下封闭性,即频繁项集的子集必须是频繁项集。
在该算法中调用Apriori}en(Lk-1)是为了通过k-1频繁项目集产生k一候选集。该算法主要由拼接和修剪完成。
1.2应用勺riori算法对学生成绩进行挖掘
学院各类课程的信息中的数据项存在一定关系。木算法挖掘的目标是基础课与专业课之间的关联,应用该算法分析学院学生各类课程中可能存在的各种关联以及各种关联的程度如何,从而进一步分析其中存在的因果关系。规则1说明:((C语言》、《数据结构》的分数在80分以下的,则《计算机软件基础》课程的成绩也在80分以下,这条规则的支持度是34.5%,置信度是92.3%;该规则与实际教学经验相符合,说明《C语言》、《数据结构》的学习与《计算机软件基础》有较强的联系。因此相关教研室在制定教学计划时应考虑《C语言》、《数据结构》课程的学时应不得少于《计算机软件基础》的学时;同时《C语言》、《数据结构》课程的开设时间应先于《计算机软件基础》课程的开设时间。
应用Apriori算法对学生成绩进行挖掘从一定程度上说明了某些基础课与专业课之间的关联,比如某些基础课学不好导致某些专业课分数也较低的规则可信度较高。学生课程的分数虽有较大的人为因素,比如对于某些学生较难学、不易理解和接受的课程,分数普遍较低,但总的来说,挖掘的规则有一定参考价值。
2、关联规则挖掘算法的改进
2.1Apriori算法的缺陷
经典关联规则Apriori算法在大量数据的挖掘过程中,必须经过逐层的重复连接与运算步骤,才能找出所有的频繁项集。它在每一层中都会先产生大量的候选项集,而每一个候选项集又都必须与数据库中的每一笔事务记录做比较,不断地扫描数据库以找出所有符合最小支持度限制的频繁项集,直到找出所有频繁项集,而后再利用这些频繁项集探讨事务之间的关系,推导出所有的关联规则。该算法的特点是反复与数据库中的事务记录比较,耗费大量的时间与内存空间。
2.2挖掘结果的运用
我们以郑州职业技术学院教务管理中的学生成绩库中生成的成绩数据为样木,采用改进的Apriori算法得到《C语言》成绩80分以上的学生,《数据结构》成绩也是80分以上的可能性近50%,这样相关授课教师就可知道这两门课程之间存在一定的联系。同样,我们可以看到其它课程之间的关联,所以教务管理人员以及教研室教师可以通过合理安排相关课程的开课时间、加强前期课程的教学来提高后续课程的学习效果,这对于教学计划的修订起到一定的提示作用。改进的Apriori算法挖掘结果以文字及图表的方式对大多数学生的学习成績进行挖掘,提供给教务管理人员及相关教研室对课程进行优化处理,调整各课程之间的关系,使其更加符合学生的学习习惯。对某一个特定的学生用改进的Apriori算法挖掘可以使教师掌握该学生对于某门课程的学习状况和学习进度,可以对该学生进行学习建议。
3、实验结果及分析
我们以郑州职业技术学院2006级计算机应用技术专业学生的经过预处理后的成绩数据作为数据源进行仿真实验,学生成绩记录4200条,运用经典关联规则 Apriori算法和改进后的Apriori算法,从中分别抽取830 } 1330 } 1830 } 2330 } 2560五组事务记录条数,采用同样的最小支持度对学生各类不同课程成绩记录进行对比挖掘实验来挖掘各类课程的相关性。运行环境为256MB主存、WindoweXP,2GHz的CPU,不同记录条数在两种不同算法中的挖掘结果得出了采用同样最小支持度对于不同事务记录条数进行比较时,两种算法在执行时间方而的区别,从实验结果来看,改进的Apriori算法实现了预期的目标,与同类算法相比,该算法具有挖掘结果准确、速度快、运算量小、时间短、空间利用率高等特点。同时该图也反映了这两种算法的最小支持度与时间的关系:最小支持度越高,所需要的时间越多;对于不同的最小支持度,改进Apriori算法所需时间比经典Apriori算法所需要的时间短。通过以上分析,综合关联规则挖掘结果,得到如下结论:学生的学习成绩与课程之间存在很大的关系。加强基础课程和专业基础课程教学,有助于学生后续专业课程的学习和提高。
4、小结
木文主要对学院在校学生成绩分析与预测的关联规则进行了挖掘,在挖掘该问题的过程中,将经典的Apriori算法与改进后的Apriori算法进行了比较与分析,比较结果证明了改进后的Apriori算法在程序运行的时间效率上明显提高,同时从海量数据中挖掘出基础课程与专业课程的关系,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因,并在此基础上对课程设置做出合理安排。
参考文献
[1] 康俊霞.关联规则挖掘算法在教学上的应用[J].河北工业科技学院学报,2008(4).
[2] 土伟勤,郑海A}Y'lOY'1算法的进一步改进[J].计算机与数字工程,2009(4)
[3] 吴斌,肖刚,陆佳炜.基于关联规则挖掘领域的算法的优化研究[J].计算机工程与科学,2009(6).
作者简介
王玉林,(1992-09),男,河南省新乡市人,郑州大学信息工程学院2010级软件工程专业本科生。