论文部分内容阅读
摘要:数据挖掘中的关联规则挖掘能够发现大量数据中项集之间有趣的关联或相关联系。本文利用数据挖掘技术中关联规则的Apriori算法对我校计算机课程的学生成绩进行了分析,分析结果供学校各教学单位参考。
关键词:数据挖掘;Apriori算法;学生成绩
1 关联规则的Apriori算法
关联规则(Association Rules)的概念首先由R.Agrawal等于1993年提出的,是反映一个事物与其他事物之间的相互依赖性或相互关联性。Apriori算法是Agrawal等人在1993年提出的一种最具影响力的基于两阶段频集思想的关联规则挖掘方法,是挖掘布尔关联规则频繁项集的算法中最成功的一类算法。在实现过程中,Apriori算法使用一种逐层搜索的迭代方法,K-项集用于搜索(K+1)-项集。Apriori算法将关联规则挖掘算法分解为两个子问题:
(1)求出事务集D中满足最小支持度minsup的所有频繁集;
(2)利用频繁集生成满足最小可信度minconf的所有关联规则。
其中第一个问题是算法的关键,Apriori算法是基于频繁集理论的递推方法来解决这一问题。根据上述两个关键步骤,Apriori算法具体可以理解为:
定义最小支持度和最小置信度。
Apriori算法使用候选项目集的概念,若候选项目集的支持度大于或等于最小支持度,则此候选项目集称作频繁项目集。
首先由事务数据库读入所有的事务,得出候选1项目集合的支持度,再找出频繁单项目集合,并利用这些频繁单项目集合的结合,产生候选2项目集合。
再次扫描事务数据库,得出候选2项目集合的支持度以后,再找出频繁2项目集合,并利用这些频繁2项目集合的结合,产生候选3项目集合。
重复扫描事务数据库,与最小支持度比较,产生频繁项目集合,再结合产生下一级候选项目集合,直到不再结合产生出新的候选项目集合为止。
在利用Apriori算法挖掘出数据库的频繁项集后,通过给定的最小置信度,就可由它们产生强关联规则。
2 Apriori算法在学生成绩分析中的应用
挖掘的数据来源于我校青果教务管理系统。下面以2015年到2018年全校大一学生的计算机基础课程成绩为例来说明。
为了简化分析,假设将数据进行抽象和离散化处理。学生专业服装设计与工程用S1标识,物联网工程用S2标识,会计学用S3标识,物流管理用S4标识,环境设计用S5标识,制药工程用S6标识……教师职称正高用C1标识,副高用C2标识,中级用C3标识,初级用C4标识。学生上课课时数离散化为:>=48用D1标识,>=40用D2标识,>=32用D3标识,<32用D4标识。学生作业根据得分情况离散化为:90-100为优秀用E1标识,80-89为良好用E2标识,70-79为良好用E3标识,60-69为良好用E4标识,低于60分为不合格用E5标识。考试成绩离散化为:90-100为优秀用F1标识,80-89为良好用F2标识,70-79为良好用F3标识,60-69为良好用F4标识,低于60分为不合格用F5标识。经过处理的信息表如表所示:
下面我们来进行关联挖掘。第一步,用Apriori算法來找出频繁项集,运用Apriori算法找出具有最小支持度阈值的数据(设定最小支持度为0.35,取最小置信度为0.65)。由频繁项集产生强关联规则,在上述数据库中,经扫描,筛选,连接,剪枝的过程,最后得到所需要的频繁2-项集和频繁3-项集,如图
从表中看任课教师的职称对于学生的成绩并没有什么直接影响。但是从S2,C3,D1→F1、S3,C2,D2→F1、S5,C3,D4→F5这些关联规则中我们可以推导出,最终考试成绩和前面的基础数据存在着很强的关联性,课时少的、艺术类专业的学生课程通过率较低;课时数40课时以上、计算机类专业、会计学专业的学生课程通过率较高。因此,针对此类情况,学校应适当增加课时,对课时少的专业中作业成绩较差的学生教师应在课堂上给予更多关注,以利于提高课程的考试成绩。此外,学校要严格执行人才培养方案中规定中的课时数,若因教师自身原因影响学生的上课课时,教师应自觉履行补课程序,完成课程的教学任务,提高教学质量和教学效果。
3 结论
本文利用数据挖掘技术中的关联规则分析对计算机课程的成绩进行了分析,分析的结果和课程结束后学生成绩的分布结构相类似。学生所在专业以及教师的职称对课程成绩影响不明显,两者之间基本上不存在符合设定阀值的关联。而学生专业、授课时数、作业成绩和最终成绩存在着很强的关联性。其分析结果可以帮助学生发现自己的薄弱环节,对于以后学习提供针对性的帮助。同时对教师教学方法的改进和学院对不同专业的课程学时分配也有一定的指导意义。
关键词:数据挖掘;Apriori算法;学生成绩
1 关联规则的Apriori算法
关联规则(Association Rules)的概念首先由R.Agrawal等于1993年提出的,是反映一个事物与其他事物之间的相互依赖性或相互关联性。Apriori算法是Agrawal等人在1993年提出的一种最具影响力的基于两阶段频集思想的关联规则挖掘方法,是挖掘布尔关联规则频繁项集的算法中最成功的一类算法。在实现过程中,Apriori算法使用一种逐层搜索的迭代方法,K-项集用于搜索(K+1)-项集。Apriori算法将关联规则挖掘算法分解为两个子问题:
(1)求出事务集D中满足最小支持度minsup的所有频繁集;
(2)利用频繁集生成满足最小可信度minconf的所有关联规则。
其中第一个问题是算法的关键,Apriori算法是基于频繁集理论的递推方法来解决这一问题。根据上述两个关键步骤,Apriori算法具体可以理解为:
定义最小支持度和最小置信度。
Apriori算法使用候选项目集的概念,若候选项目集的支持度大于或等于最小支持度,则此候选项目集称作频繁项目集。
首先由事务数据库读入所有的事务,得出候选1项目集合的支持度,再找出频繁单项目集合,并利用这些频繁单项目集合的结合,产生候选2项目集合。
再次扫描事务数据库,得出候选2项目集合的支持度以后,再找出频繁2项目集合,并利用这些频繁2项目集合的结合,产生候选3项目集合。
重复扫描事务数据库,与最小支持度比较,产生频繁项目集合,再结合产生下一级候选项目集合,直到不再结合产生出新的候选项目集合为止。
在利用Apriori算法挖掘出数据库的频繁项集后,通过给定的最小置信度,就可由它们产生强关联规则。
2 Apriori算法在学生成绩分析中的应用
挖掘的数据来源于我校青果教务管理系统。下面以2015年到2018年全校大一学生的计算机基础课程成绩为例来说明。
为了简化分析,假设将数据进行抽象和离散化处理。学生专业服装设计与工程用S1标识,物联网工程用S2标识,会计学用S3标识,物流管理用S4标识,环境设计用S5标识,制药工程用S6标识……教师职称正高用C1标识,副高用C2标识,中级用C3标识,初级用C4标识。学生上课课时数离散化为:>=48用D1标识,>=40用D2标识,>=32用D3标识,<32用D4标识。学生作业根据得分情况离散化为:90-100为优秀用E1标识,80-89为良好用E2标识,70-79为良好用E3标识,60-69为良好用E4标识,低于60分为不合格用E5标识。考试成绩离散化为:90-100为优秀用F1标识,80-89为良好用F2标识,70-79为良好用F3标识,60-69为良好用F4标识,低于60分为不合格用F5标识。经过处理的信息表如表所示:
下面我们来进行关联挖掘。第一步,用Apriori算法來找出频繁项集,运用Apriori算法找出具有最小支持度阈值的数据(设定最小支持度为0.35,取最小置信度为0.65)。由频繁项集产生强关联规则,在上述数据库中,经扫描,筛选,连接,剪枝的过程,最后得到所需要的频繁2-项集和频繁3-项集,如图
从表中看任课教师的职称对于学生的成绩并没有什么直接影响。但是从S2,C3,D1→F1、S3,C2,D2→F1、S5,C3,D4→F5这些关联规则中我们可以推导出,最终考试成绩和前面的基础数据存在着很强的关联性,课时少的、艺术类专业的学生课程通过率较低;课时数40课时以上、计算机类专业、会计学专业的学生课程通过率较高。因此,针对此类情况,学校应适当增加课时,对课时少的专业中作业成绩较差的学生教师应在课堂上给予更多关注,以利于提高课程的考试成绩。此外,学校要严格执行人才培养方案中规定中的课时数,若因教师自身原因影响学生的上课课时,教师应自觉履行补课程序,完成课程的教学任务,提高教学质量和教学效果。
3 结论
本文利用数据挖掘技术中的关联规则分析对计算机课程的成绩进行了分析,分析的结果和课程结束后学生成绩的分布结构相类似。学生所在专业以及教师的职称对课程成绩影响不明显,两者之间基本上不存在符合设定阀值的关联。而学生专业、授课时数、作业成绩和最终成绩存在着很强的关联性。其分析结果可以帮助学生发现自己的薄弱环节,对于以后学习提供针对性的帮助。同时对教师教学方法的改进和学院对不同专业的课程学时分配也有一定的指导意义。