论文部分内容阅读
摘 要:关联规则挖掘是挖掘研究领域的一项重要技术,高职院校教学管理系统产生海量数据,这些数据中隐藏着大量有价值的信息。文章采用改进的Apriori算法对高职院校计算机专业学生成绩进行关联规则分析,挖掘出课程之间的相关性,为高职院校更科学的制定教学计划提供有力的决策支持,进而提高教育教学质量。
关键词:关联规则;高职院校;计算机专业
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2014)20-0075-03
一、引言
随着高职院校快速发展,规模不断扩大,造成高职院校在课程设置、教学内容、学生管理、招生就业等方面面临严峻的考验,传统的教学管理理念已经不能够适应高职院校发展的需要,但是,许多高职院校在专业课程设置上都是在以往的专业课程设置基础上结合教学实际情况简单的进行修改,很少高职院校在专业课程设置上听取企业的建议或者遵循市场对人才的需求,导致课程应该在哪个学期开设或者是否继续开设等方面存在不少问题。
目前,基本上所有的高职院校都是采用基于WEB的教学管理系统对学生成绩信息进行有效管理,随着时间的推移,教学管理系统将产生海量的数据,大量的数据没有被充分的利用,因此,如何利用关联规则挖掘技术发掘隐藏在海量学生成绩数据背后有价值的信息或者规则,如课程之间的联系,学生成绩与课程之间的联系等等,为教师授课、学生学习、教育管理决策提供有用的理论指导。
二、关联规则挖掘和改进的Apriori算法
1.基本概念
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。[1]关联规则挖掘是从大量数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。[2]关联规则是数据挖掘研究领域的一项重要技术,其目的是从数据库中挖掘出不低于预先给定min-support阈值和min-confi阈值的关联规则。[3]
关联规则描述为:设I={i1,i2,……,im}为M个项目集,D为交易数据集合,其中事务T是I项目子集(T?I),对应的每一个事务交易都有唯一的标识TID。关联规则形如X?Y的逻辑蕴涵式,其中X?I,Y?I,且X∩Y=ф。如果事务数据库D中有s%的事务包含X∪Y,则称关联规则X?Y的支持度为s%,若项集X的支持度记为support(X),规则的信任度为support(X∪Y)/ support(X)。[4]也就是:
support(XY)=P(X∪Y)
confidence(XY)=P(Y/X)
2. Apriori算法
Apriori算法是关联规则挖掘中重要的算法之一,它的核心思想是采用逐层搜索的迭代的方法通过多次扫描数据库D来找出所有的频繁项集。其算法描述如下:
L1={频繁1—项集};
For(k=2;Lk-1≠ф;k )do begin
Ck=apriori_gen(Lk-1);//新的潜在频繁项集
for all transactions t∈D do begin
Ct=subset(Ck ,t); //事务t中包含的潜在频繁项集
for all candidates c∈Ct do
c.count ;
end;
Lk={c∈Ck|c.count≥minsup}
end;
Answer=YkLk;
Apriori算法虽然简单明了,容易实现,但是存在许多不足之处,一是对数据库D扫描次数过多,二是会产生大量的中间项集。针对这两个问题,笔者对Apriori算法做了相应的改进,将整个数据库进行分段,挖掘过程只需在段内进行,接着各子数据库挖掘结果汇总,最终刷选出关联规则。
三、关联规则挖掘在高职院校计算机专业课程设置中的应用
高职院校计算机专业课程包括有图像处理、网页设计、动画制作、网站制作与维护、C语言程序设计等。采用改进的Apriori算法对计算机专业课程进行分析,分析流程包括数据选择、数据刷选、数据转换、数据挖掘及结果分析。
1.数据准备
本研究选取某高职院校计算机专业10级到12级学生成绩表作为数据源,挖掘课程之间的关联性。为了减少冗余数据,将一些对专业课程影响较小的字段删除,删除了思政类、人文类、体育类和公共基础课成绩,最终选取了《图像处理》、《网页设计》、《动画制作》等15门专业基础、专业骨干、专业核心课程学生成绩作为研究对象。
2.数据筛选
采集的数据往往存在数据冗余、数据不完整性等现象,不能直接进行挖掘,需要对数据进行筛选处理。例如对于学生成绩表中含有学生的电话、地址、出生年月等字段,一一进行删除;对于学生成绩表中的学生退学、转学等记录一一删除;对于学生成绩表中缺考的信息,采用忽略元组的方法删除;对于个别空缺值,采用人工填充的简单方式,其填充值为该字段的中值;对于补考、重修通过的学生成绩,采用替换的方式填充为50分,便于数据转换。经过数据筛选的数据如表1所示。
3.数据转换
从表1中可以看出,每一条元组代表一名学生的课程成绩,表中成绩都是采用0-100的数值表示,如果直接进行数据挖掘,难以取得满意的结果,所以,需要对每一条元组对应的属性值进行量化,如采用区间量化,使每名学生每门课的成绩值落入到特定的区间,最终转换成离散属性。因此,本文将学生各门课程成绩分为优秀、良好、中、及格、差五等,分别用A、B、C、D、E表示,90-100分为A类,80-89分为B类,70-79分为C类,60-69分为D类,60分以下为E类,同时,为了便于书写,本文将表中各属性的字段名用英文字母替代,其中KC1为《图像处理》、KC2为《网页设计》,KC3为《动画制作》、KC4为《网站制作与维护》、KC5为《C语言程序设计》等等,数据转换后如表2所示。 4. Apriori算法的应用
要对上述学生课程成绩进行课程关联规则挖掘,本文采用的算法运行的硬件平台:Intel 酷睿2双核 E7500、2GB内存,软件平台:Windows XP、SQL Server 2000、SPSS Clementine。经过数据转换的学生成绩数据已经满足Apriori算法对数据的要求,可以直接使用Apriori模型进行挖掘。为了能够得到准确有效的课程关联规则,经过反复验证处理,将最小支持度设定为30%,最小置信度设定为60%。部分挖掘结果如图1所示。
5.挖掘结果及分析
上面挖掘出来的98条结果并非每条关联规则都有意义,我们对某些无价值的关联规则进行处理,无价值关联就是一门课程的成绩在A、B、C、D类中的其中一类能够同时推出另外一门课程的成绩为A、B、C、D类中的两类或者两类以上的规则。例如,《图像处理》成绩为A的学生可以推出《网页设计》课程的学生成绩即为A或者C等,这类规则就没有意义。关联规则分析主要有两个参考依据:支持度与置信度,若数据集中D有C比例的事务T满足“包含A事务的同时包含B事务”,则称规则A→B具有C置信度,置信度的高低代表关联规则强弱,置信度越高,关联越强。
通过整理98条,剩下64条有价值的规则,分析这些关联规则,得到部分主要的关联规则如下:
规则1:C语言程序设计=A→网页设计=A,置信度为69.2%,图像处理=A、C语言程序设计=A→网页设计=A,说明C语言程序设计、图像处理是网页设计的前导课程,因此,在课程设置中,网页设计排在C语言程序设计、图像处理课之后。
规则2:动画制作=A→网页设计=C,置信度为70.5%,通过查看课程的安排学期发现,网页设计课程安排在动画制作课程的前面,导致动画制作课程为优秀的学生,网页设计课程的学生不一定为优秀,因此,动画制作课程应该安排在网页设计的前面。
以下几条规则的含义相似,不在详述。
规则3:网页设计=A、C语言程序设计=A→网站制作与维护=A,置信度为85%。
规则4:数据结构=D、C语言程序设计=D→数据库技术=D,置信度80.3%。
规则5:C语言程序设计=A、操作系统=A→网站制作与维护=A,置信度76.5%。
规则6:计算机基础=A、计算机组装与维护=A、C语言程序设计=A→信息系统分析与设计=A,置信度82%。
从以上规则可以看出,C语言、数据结构对于计算机专业的学生来说是一门基础课,比较重要。笔者通过分析某高职院校计算机专业课程设置是否合理,简单的得出计算机专业课程体系,其中基础课程为计算机基础、计算机组装与维护、计算机网络技术、办公自动化高级应用、图像处理、动画制作、C语言程序设计等,骨干课程为数据库技术、网页设计、操作系统、网站制作与维护等,核心课程为动态WEB技术、信息系统分析与设计等。
四、结束语
高职教育是培养符合市场需求的高技能型人才,通过关联规则挖掘算法,能够有效地挖掘出课程之间的关联关系,为高职院校课程设置、教学计划和教学方案提供有力地决策支持,也为学生学习提供方向性指导意见。
参考文献:
[1]J Han, M Kamber. Data Mining:Concepts and Techniques[M]. San Mateo, CA:Morgan Kaufmann, 2001.
[2]付沙,周航军.关联规则挖掘Apriori算法的研究与改进[J]. 微电子学与计算机,2013(9).
[3]孙志刚,朱小冬,王毅刚.基于改进关联规则的维修专业组合与优化模型[J].计算机应用研究,2013(2).
[4]屈展,陈雷.一种改进的APRIORI算法在电子商务中的应用[J].西安石油大学学报(自然科学版),2012(1).
(编辑:鲁利瑞)
关键词:关联规则;高职院校;计算机专业
中图分类号:TP393 文献标志码:A 文章编号:1673-8454(2014)20-0075-03
一、引言
随着高职院校快速发展,规模不断扩大,造成高职院校在课程设置、教学内容、学生管理、招生就业等方面面临严峻的考验,传统的教学管理理念已经不能够适应高职院校发展的需要,但是,许多高职院校在专业课程设置上都是在以往的专业课程设置基础上结合教学实际情况简单的进行修改,很少高职院校在专业课程设置上听取企业的建议或者遵循市场对人才的需求,导致课程应该在哪个学期开设或者是否继续开设等方面存在不少问题。
目前,基本上所有的高职院校都是采用基于WEB的教学管理系统对学生成绩信息进行有效管理,随着时间的推移,教学管理系统将产生海量的数据,大量的数据没有被充分的利用,因此,如何利用关联规则挖掘技术发掘隐藏在海量学生成绩数据背后有价值的信息或者规则,如课程之间的联系,学生成绩与课程之间的联系等等,为教师授课、学生学习、教育管理决策提供有用的理论指导。
二、关联规则挖掘和改进的Apriori算法
1.基本概念
数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又潜在有用的信息和知识的过程。[1]关联规则挖掘是从大量数据中挖掘出有价值的、描述数据项之间相互联系的有关知识。[2]关联规则是数据挖掘研究领域的一项重要技术,其目的是从数据库中挖掘出不低于预先给定min-support阈值和min-confi阈值的关联规则。[3]
关联规则描述为:设I={i1,i2,……,im}为M个项目集,D为交易数据集合,其中事务T是I项目子集(T?I),对应的每一个事务交易都有唯一的标识TID。关联规则形如X?Y的逻辑蕴涵式,其中X?I,Y?I,且X∩Y=ф。如果事务数据库D中有s%的事务包含X∪Y,则称关联规则X?Y的支持度为s%,若项集X的支持度记为support(X),规则的信任度为support(X∪Y)/ support(X)。[4]也就是:
support(XY)=P(X∪Y)
confidence(XY)=P(Y/X)
2. Apriori算法
Apriori算法是关联规则挖掘中重要的算法之一,它的核心思想是采用逐层搜索的迭代的方法通过多次扫描数据库D来找出所有的频繁项集。其算法描述如下:
L1={频繁1—项集};
For(k=2;Lk-1≠ф;k )do begin
Ck=apriori_gen(Lk-1);//新的潜在频繁项集
for all transactions t∈D do begin
Ct=subset(Ck ,t); //事务t中包含的潜在频繁项集
for all candidates c∈Ct do
c.count ;
end;
Lk={c∈Ck|c.count≥minsup}
end;
Answer=YkLk;
Apriori算法虽然简单明了,容易实现,但是存在许多不足之处,一是对数据库D扫描次数过多,二是会产生大量的中间项集。针对这两个问题,笔者对Apriori算法做了相应的改进,将整个数据库进行分段,挖掘过程只需在段内进行,接着各子数据库挖掘结果汇总,最终刷选出关联规则。
三、关联规则挖掘在高职院校计算机专业课程设置中的应用
高职院校计算机专业课程包括有图像处理、网页设计、动画制作、网站制作与维护、C语言程序设计等。采用改进的Apriori算法对计算机专业课程进行分析,分析流程包括数据选择、数据刷选、数据转换、数据挖掘及结果分析。
1.数据准备
本研究选取某高职院校计算机专业10级到12级学生成绩表作为数据源,挖掘课程之间的关联性。为了减少冗余数据,将一些对专业课程影响较小的字段删除,删除了思政类、人文类、体育类和公共基础课成绩,最终选取了《图像处理》、《网页设计》、《动画制作》等15门专业基础、专业骨干、专业核心课程学生成绩作为研究对象。
2.数据筛选
采集的数据往往存在数据冗余、数据不完整性等现象,不能直接进行挖掘,需要对数据进行筛选处理。例如对于学生成绩表中含有学生的电话、地址、出生年月等字段,一一进行删除;对于学生成绩表中的学生退学、转学等记录一一删除;对于学生成绩表中缺考的信息,采用忽略元组的方法删除;对于个别空缺值,采用人工填充的简单方式,其填充值为该字段的中值;对于补考、重修通过的学生成绩,采用替换的方式填充为50分,便于数据转换。经过数据筛选的数据如表1所示。
3.数据转换
从表1中可以看出,每一条元组代表一名学生的课程成绩,表中成绩都是采用0-100的数值表示,如果直接进行数据挖掘,难以取得满意的结果,所以,需要对每一条元组对应的属性值进行量化,如采用区间量化,使每名学生每门课的成绩值落入到特定的区间,最终转换成离散属性。因此,本文将学生各门课程成绩分为优秀、良好、中、及格、差五等,分别用A、B、C、D、E表示,90-100分为A类,80-89分为B类,70-79分为C类,60-69分为D类,60分以下为E类,同时,为了便于书写,本文将表中各属性的字段名用英文字母替代,其中KC1为《图像处理》、KC2为《网页设计》,KC3为《动画制作》、KC4为《网站制作与维护》、KC5为《C语言程序设计》等等,数据转换后如表2所示。 4. Apriori算法的应用
要对上述学生课程成绩进行课程关联规则挖掘,本文采用的算法运行的硬件平台:Intel 酷睿2双核 E7500、2GB内存,软件平台:Windows XP、SQL Server 2000、SPSS Clementine。经过数据转换的学生成绩数据已经满足Apriori算法对数据的要求,可以直接使用Apriori模型进行挖掘。为了能够得到准确有效的课程关联规则,经过反复验证处理,将最小支持度设定为30%,最小置信度设定为60%。部分挖掘结果如图1所示。
5.挖掘结果及分析
上面挖掘出来的98条结果并非每条关联规则都有意义,我们对某些无价值的关联规则进行处理,无价值关联就是一门课程的成绩在A、B、C、D类中的其中一类能够同时推出另外一门课程的成绩为A、B、C、D类中的两类或者两类以上的规则。例如,《图像处理》成绩为A的学生可以推出《网页设计》课程的学生成绩即为A或者C等,这类规则就没有意义。关联规则分析主要有两个参考依据:支持度与置信度,若数据集中D有C比例的事务T满足“包含A事务的同时包含B事务”,则称规则A→B具有C置信度,置信度的高低代表关联规则强弱,置信度越高,关联越强。
通过整理98条,剩下64条有价值的规则,分析这些关联规则,得到部分主要的关联规则如下:
规则1:C语言程序设计=A→网页设计=A,置信度为69.2%,图像处理=A、C语言程序设计=A→网页设计=A,说明C语言程序设计、图像处理是网页设计的前导课程,因此,在课程设置中,网页设计排在C语言程序设计、图像处理课之后。
规则2:动画制作=A→网页设计=C,置信度为70.5%,通过查看课程的安排学期发现,网页设计课程安排在动画制作课程的前面,导致动画制作课程为优秀的学生,网页设计课程的学生不一定为优秀,因此,动画制作课程应该安排在网页设计的前面。
以下几条规则的含义相似,不在详述。
规则3:网页设计=A、C语言程序设计=A→网站制作与维护=A,置信度为85%。
规则4:数据结构=D、C语言程序设计=D→数据库技术=D,置信度80.3%。
规则5:C语言程序设计=A、操作系统=A→网站制作与维护=A,置信度76.5%。
规则6:计算机基础=A、计算机组装与维护=A、C语言程序设计=A→信息系统分析与设计=A,置信度82%。
从以上规则可以看出,C语言、数据结构对于计算机专业的学生来说是一门基础课,比较重要。笔者通过分析某高职院校计算机专业课程设置是否合理,简单的得出计算机专业课程体系,其中基础课程为计算机基础、计算机组装与维护、计算机网络技术、办公自动化高级应用、图像处理、动画制作、C语言程序设计等,骨干课程为数据库技术、网页设计、操作系统、网站制作与维护等,核心课程为动态WEB技术、信息系统分析与设计等。
四、结束语
高职教育是培养符合市场需求的高技能型人才,通过关联规则挖掘算法,能够有效地挖掘出课程之间的关联关系,为高职院校课程设置、教学计划和教学方案提供有力地决策支持,也为学生学习提供方向性指导意见。
参考文献:
[1]J Han, M Kamber. Data Mining:Concepts and Techniques[M]. San Mateo, CA:Morgan Kaufmann, 2001.
[2]付沙,周航军.关联规则挖掘Apriori算法的研究与改进[J]. 微电子学与计算机,2013(9).
[3]孙志刚,朱小冬,王毅刚.基于改进关联规则的维修专业组合与优化模型[J].计算机应用研究,2013(2).
[4]屈展,陈雷.一种改进的APRIORI算法在电子商务中的应用[J].西安石油大学学报(自然科学版),2012(1).
(编辑:鲁利瑞)