论文部分内容阅读
[摘 要]关联规则挖掘作为数据挖掘领域的重要研究课题,是完成数据挖掘任务的重要手段。自关联规则问题被提出之后,这方面越来越多的情況受到重视,本领域的相关理论家对关联规则挖机问题进行了深入的研究和探讨。在研究和探讨中,他们主要是对原有的算法进行优化,不断提高和完善挖掘规则的整体效率,并且对关联规则进行的系统的研究和推广。
[关键词]关联规则 高校 成绩管理
中图分类号:F113 文献标识码:A 文章编号:1009-914X(2015)07-0306-01
一、关联规则的内涵及主要步骤
1、关联规则的内涵
关联规则主要是在研究过程中从大量的模糊、有噪音的实际数据中,发现项集之间有趣的关联信息和知识的过程。数据关联是某种事物发生过程中和其他事物之间发生的某种联系,是数据库中可以被发现的知识。关联规则主要是探究数据库中数据之间的潜在联系,问题可以用公式描述为:
设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。项集A在事务集D中的支持数也就是在D中包含A的事务数,我们可以记作为support(A).
规则A=>B的支持度定义为P(A∪B),体现了A和B同时出现的一种可能性,用公式可以表示为:
Support(A=>B)= P(A∪B)
与之相类似,我们可以把规则A=>B的(confidence)置信度表示为D中不仅包括A的事务的可能性,同时也包括B的事务的可能性,其数值和A出现的条件下B出现的概率是相等的,用公式可以表示为:
Confidence(A=>B)=P(B/A)
支持度主要是对关联规则重要性的一种衡量,它说明了规则在所有事务中的代表性到底有多大,很明显,支持度越高,那么关联规则就显得越发重要;而置信度则是对关联规则准确度的一种衡量,有些关联规则的置信度很高,但是支持度却非常的小,说明关联规则并不是很重要。
2、关联规则的主要步骤
关联规则的主要步骤分为两个主要的方面:其一,找出频繁项集,也就是说在关联规则下找出所有支持度大于或者等于最小支持度的项集,而找出频繁项集是形成关联规则的重要前提和基础;其二,在关联规则的前提下,使用找到的频繁项集通过相应用户给出的最小的置信度,在频繁项集中产生期望的重要规则。
3、关联规则的主要模型
设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。
如果在事务数据库中,共有s%的事务不仅包含着A同时也包含着B,那么我们就可以把S叫做是关联规则的支持度,那么如果在事务数据库D里面,包含B的事务中有C%的事务并且也包含着B,那么我们就说关联置信度为C。用数据公式我们就可以表示为:
Computer=>financial_management_software[support=2%,confidence=60%]
从上边这个规则我们可以看出:2%是支持度,表示在全部事务中有2%同时购买了财务管理软件和计算机软件;60%是为置信度,就是表示购买计算机的顾客有60%的人同时购买了财务管理软件。
二、关联规则挖掘技术的分析
Apriori算法需要扫描数据集的次数和最大频繁项目集的项目数相等,它是一种影响力巨大的挖掘关联规则频繁项集的基本算法。
1、Apriori算法的相关描述
Apriori算法通常情况下使用一种被称为逐层迭代的候选产生测试的主要方法,用k_项目集来分析和探求(k-1)_的项目集。在Apriori算法的过程中,先找到频繁1_项目集的集合,用L1来记录。通过L1以此找到项目集的集合L2,然后通过L2找到L3,然后用L3找到L4……以此类推,直到无法找到频繁K_的项目集,在数据寻找的过程中,每次找到一个Lk就需要对数据库进行一次扫描。在Apriori算法中,频繁项集所有的非空子集都是频繁的,这是Apriori算法的基本特征。根据定义,如果项目集I无法满足最小支持度阈值,那么就说明I是不频繁的,用公式表示为:sup port(I) Apriori算法的性质属于一种非常特殊的分类,也可以称之为反单调,也就是说:“如果一个集合不能够通过测试,那么它其他所有的超集也无法通过测试。”
2、Apriori算法的关键技术
Apriori算法的关键技术在通过Lk-1找Lk的过程中,主要通过连接步和剪枝步来实现的。
首先,连接步。在Apriori算法的关键技术中,如果想找到LK,那就要通过Lk-1,通过与自己的相互连接产生k_项集的集合,我们可以用Ck来记录,然后我们设I1和I2是Lk-1的项集,用Ii[j]来表示Ii的第j项,为了计数的方便,我们按照字母的顺序进行项集的排序,实现Lk-1和自身的相互连接,这样以来Lk-1中的元素是可以连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧……∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]),在这个关系式里面,条件(l1[k-1]=l2[k-1])保证不能够产生重复,那么连接l1 和l2所产生的项集就是l1[1] l1[2]……l1[k-2] l2[k-1]。
其次,剪枝步。在剪枝步的环节,Ck是LK超集,也就是说它的成员可以是不频繁的也可以是频繁的,但是,所有的k_频繁项集都在Ck的包含中。通过对数据库进行扫描,最终确定Ck中每个候选的计数,然后就此确定出LK。但是,在确定LK的过程中,Ck的计算量可能会非常大,所以要对Ck进行压缩。我们知道,在Apriori算法中,所有非频繁的(k-1)_项集都不可能是频繁K_项集的一个子集。所以说,我们可以通过排除法将不可能的项集从Ck中删除,这种算法能够提高整体的效率。
Apriori算法通常可获得比较高且稳定的挖掘效率,而且在分布式数据库系统中,若结合并行的思想,该算法应是最好的选择。
参考文献
[1] 刘桂霞,崔永铎,高平和. 关于数据挖掘的研究[J]. 工业技术经济. 2000(03)
[2] 李业丽,常桂然,徐茜. 神经网络在数据挖掘中的应用研究[J]. 计算机工程与应用. 2000(08) [3] 陈国萍,李巍,刘仲英. 数据挖掘中概念树的标准、生成和实现[J]. 计算机工程. 2000(12)
[4] 朱天翔,李力. 相关案件的数据挖掘[J]. 计算机应用研究. 2000(03)
[关键词]关联规则 高校 成绩管理
中图分类号:F113 文献标识码:A 文章编号:1009-914X(2015)07-0306-01
一、关联规则的内涵及主要步骤
1、关联规则的内涵
关联规则主要是在研究过程中从大量的模糊、有噪音的实际数据中,发现项集之间有趣的关联信息和知识的过程。数据关联是某种事物发生过程中和其他事物之间发生的某种联系,是数据库中可以被发现的知识。关联规则主要是探究数据库中数据之间的潜在联系,问题可以用公式描述为:
设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。项集A在事务集D中的支持数也就是在D中包含A的事务数,我们可以记作为support(A).
规则A=>B的支持度定义为P(A∪B),体现了A和B同时出现的一种可能性,用公式可以表示为:
Support(A=>B)= P(A∪B)
与之相类似,我们可以把规则A=>B的(confidence)置信度表示为D中不仅包括A的事务的可能性,同时也包括B的事务的可能性,其数值和A出现的条件下B出现的概率是相等的,用公式可以表示为:
Confidence(A=>B)=P(B/A)
支持度主要是对关联规则重要性的一种衡量,它说明了规则在所有事务中的代表性到底有多大,很明显,支持度越高,那么关联规则就显得越发重要;而置信度则是对关联规则准确度的一种衡量,有些关联规则的置信度很高,但是支持度却非常的小,说明关联规则并不是很重要。
2、关联规则的主要步骤
关联规则的主要步骤分为两个主要的方面:其一,找出频繁项集,也就是说在关联规则下找出所有支持度大于或者等于最小支持度的项集,而找出频繁项集是形成关联规则的重要前提和基础;其二,在关联规则的前提下,使用找到的频繁项集通过相应用户给出的最小的置信度,在频繁项集中产生期望的重要规则。
3、关联规则的主要模型
设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。
如果在事务数据库中,共有s%的事务不仅包含着A同时也包含着B,那么我们就可以把S叫做是关联规则的支持度,那么如果在事务数据库D里面,包含B的事务中有C%的事务并且也包含着B,那么我们就说关联置信度为C。用数据公式我们就可以表示为:
Computer=>financial_management_software[support=2%,confidence=60%]
从上边这个规则我们可以看出:2%是支持度,表示在全部事务中有2%同时购买了财务管理软件和计算机软件;60%是为置信度,就是表示购买计算机的顾客有60%的人同时购买了财务管理软件。
二、关联规则挖掘技术的分析
Apriori算法需要扫描数据集的次数和最大频繁项目集的项目数相等,它是一种影响力巨大的挖掘关联规则频繁项集的基本算法。
1、Apriori算法的相关描述
Apriori算法通常情况下使用一种被称为逐层迭代的候选产生测试的主要方法,用k_项目集来分析和探求(k-1)_的项目集。在Apriori算法的过程中,先找到频繁1_项目集的集合,用L1来记录。通过L1以此找到项目集的集合L2,然后通过L2找到L3,然后用L3找到L4……以此类推,直到无法找到频繁K_的项目集,在数据寻找的过程中,每次找到一个Lk就需要对数据库进行一次扫描。在Apriori算法中,频繁项集所有的非空子集都是频繁的,这是Apriori算法的基本特征。根据定义,如果项目集I无法满足最小支持度阈值,那么就说明I是不频繁的,用公式表示为:sup port(I)
2、Apriori算法的关键技术
Apriori算法的关键技术在通过Lk-1找Lk的过程中,主要通过连接步和剪枝步来实现的。
首先,连接步。在Apriori算法的关键技术中,如果想找到LK,那就要通过Lk-1,通过与自己的相互连接产生k_项集的集合,我们可以用Ck来记录,然后我们设I1和I2是Lk-1的项集,用Ii[j]来表示Ii的第j项,为了计数的方便,我们按照字母的顺序进行项集的排序,实现Lk-1和自身的相互连接,这样以来Lk-1中的元素是可以连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧……∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]),在这个关系式里面,条件(l1[k-1]=l2[k-1])保证不能够产生重复,那么连接l1 和l2所产生的项集就是l1[1] l1[2]……l1[k-2] l2[k-1]。
其次,剪枝步。在剪枝步的环节,Ck是LK超集,也就是说它的成员可以是不频繁的也可以是频繁的,但是,所有的k_频繁项集都在Ck的包含中。通过对数据库进行扫描,最终确定Ck中每个候选的计数,然后就此确定出LK。但是,在确定LK的过程中,Ck的计算量可能会非常大,所以要对Ck进行压缩。我们知道,在Apriori算法中,所有非频繁的(k-1)_项集都不可能是频繁K_项集的一个子集。所以说,我们可以通过排除法将不可能的项集从Ck中删除,这种算法能够提高整体的效率。
Apriori算法通常可获得比较高且稳定的挖掘效率,而且在分布式数据库系统中,若结合并行的思想,该算法应是最好的选择。
参考文献
[1] 刘桂霞,崔永铎,高平和. 关于数据挖掘的研究[J]. 工业技术经济. 2000(03)
[2] 李业丽,常桂然,徐茜. 神经网络在数据挖掘中的应用研究[J]. 计算机工程与应用. 2000(08) [3] 陈国萍,李巍,刘仲英. 数据挖掘中概念树的标准、生成和实现[J]. 计算机工程. 2000(12)
[4] 朱天翔,李力. 相关案件的数据挖掘[J]. 计算机应用研究. 2000(03)