浅析关联规则及其数据挖掘算法

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:asd17844412dsf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]关联规则挖掘作为数据挖掘领域的重要研究课题,是完成数据挖掘任务的重要手段。自关联规则问题被提出之后,这方面越来越多的情況受到重视,本领域的相关理论家对关联规则挖机问题进行了深入的研究和探讨。在研究和探讨中,他们主要是对原有的算法进行优化,不断提高和完善挖掘规则的整体效率,并且对关联规则进行的系统的研究和推广。
  [关键词]关联规则 高校 成绩管理
  中图分类号:F113 文献标识码:A 文章编号:1009-914X(2015)07-0306-01
  一、关联规则的内涵及主要步骤
  1、关联规则的内涵
  关联规则主要是在研究过程中从大量的模糊、有噪音的实际数据中,发现项集之间有趣的关联信息和知识的过程。数据关联是某种事物发生过程中和其他事物之间发生的某种联系,是数据库中可以被发现的知识。关联规则主要是探究数据库中数据之间的潜在联系,问题可以用公式描述为:
  设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。项集A在事务集D中的支持数也就是在D中包含A的事务数,我们可以记作为support(A).
  规则A=>B的支持度定义为P(A∪B),体现了A和B同时出现的一种可能性,用公式可以表示为:
  Support(A=>B)= P(A∪B)
  与之相类似,我们可以把规则A=>B的(confidence)置信度表示为D中不仅包括A的事务的可能性,同时也包括B的事务的可能性,其数值和A出现的条件下B出现的概率是相等的,用公式可以表示为:
  Confidence(A=>B)=P(B/A)
  支持度主要是对关联规则重要性的一种衡量,它说明了规则在所有事务中的代表性到底有多大,很明显,支持度越高,那么关联规则就显得越发重要;而置信度则是对关联规则准确度的一种衡量,有些关联规则的置信度很高,但是支持度却非常的小,说明关联规则并不是很重要。
  2、关联规则的主要步骤
  关联规则的主要步骤分为两个主要的方面:其一,找出频繁项集,也就是说在关联规则下找出所有支持度大于或者等于最小支持度的项集,而找出频繁项集是形成关联规则的重要前提和基础;其二,在关联规则的前提下,使用找到的频繁项集通过相应用户给出的最小的置信度,在频繁项集中产生期望的重要规则。
  3、关联规则的主要模型
  设I={i1,i2,,,,,,im}是项的集合,然后再设定数据D作为任务相关数据的集合,其中每一个事务T是项的集合,使T()I。假如我们把A设定为项集,那么对于项集A()I,称T包含A当且仅当A()T。我们可以把关联规则的蕴含式表示为A=>B,在这个公式里面,AB,BI,并且A∩B=φ。在规则A=>B中,它在事务集合D中是成立的,并且具有置信度和支持度。
  如果在事务数据库中,共有s%的事务不仅包含着A同时也包含着B,那么我们就可以把S叫做是关联规则的支持度,那么如果在事务数据库D里面,包含B的事务中有C%的事务并且也包含着B,那么我们就说关联置信度为C。用数据公式我们就可以表示为:
  Computer=>financial_management_software[support=2%,confidence=60%]
  从上边这个规则我们可以看出:2%是支持度,表示在全部事务中有2%同时购买了财务管理软件和计算机软件;60%是为置信度,就是表示购买计算机的顾客有60%的人同时购买了财务管理软件。
  二、关联规则挖掘技术的分析
  Apriori算法需要扫描数据集的次数和最大频繁项目集的项目数相等,它是一种影响力巨大的挖掘关联规则频繁项集的基本算法。
  1、Apriori算法的相关描述
  Apriori算法通常情况下使用一种被称为逐层迭代的候选产生测试的主要方法,用k_项目集来分析和探求(k-1)_的项目集。在Apriori算法的过程中,先找到频繁1_项目集的集合,用L1来记录。通过L1以此找到项目集的集合L2,然后通过L2找到L3,然后用L3找到L4……以此类推,直到无法找到频繁K_的项目集,在数据寻找的过程中,每次找到一个Lk就需要对数据库进行一次扫描。在Apriori算法中,频繁项集所有的非空子集都是频繁的,这是Apriori算法的基本特征。根据定义,如果项目集I无法满足最小支持度阈值,那么就说明I是不频繁的,用公式表示为:sup port(I)  Apriori算法的性质属于一种非常特殊的分类,也可以称之为反单调,也就是说:“如果一个集合不能够通过测试,那么它其他所有的超集也无法通过测试。”
  2、Apriori算法的关键技术
  Apriori算法的关键技术在通过Lk-1找Lk的过程中,主要通过连接步和剪枝步来实现的。
  首先,连接步。在Apriori算法的关键技术中,如果想找到LK,那就要通过Lk-1,通过与自己的相互连接产生k_项集的集合,我们可以用Ck来记录,然后我们设I1和I2是Lk-1的项集,用Ii[j]来表示Ii的第j项,为了计数的方便,我们按照字母的顺序进行项集的排序,实现Lk-1和自身的相互连接,这样以来Lk-1中的元素是可以连接的,如果(l1[1]=l2[1])∧(l1[2]=l2[2])∧……∧(l1[k-2]=l2[k-2])∧(l1[k-1]=l2[k-1]),在这个关系式里面,条件(l1[k-1]=l2[k-1])保证不能够产生重复,那么连接l1 和l2所产生的项集就是l1[1] l1[2]……l1[k-2] l2[k-1]。
  其次,剪枝步。在剪枝步的环节,Ck是LK超集,也就是说它的成员可以是不频繁的也可以是频繁的,但是,所有的k_频繁项集都在Ck的包含中。通过对数据库进行扫描,最终确定Ck中每个候选的计数,然后就此确定出LK。但是,在确定LK的过程中,Ck的计算量可能会非常大,所以要对Ck进行压缩。我们知道,在Apriori算法中,所有非频繁的(k-1)_项集都不可能是频繁K_项集的一个子集。所以说,我们可以通过排除法将不可能的项集从Ck中删除,这种算法能够提高整体的效率。
  Apriori算法通常可获得比较高且稳定的挖掘效率,而且在分布式数据库系统中,若结合并行的思想,该算法应是最好的选择。
  参考文献
  [1] 刘桂霞,崔永铎,高平和. 关于数据挖掘的研究[J]. 工业技术经济. 2000(03)
  [2] 李业丽,常桂然,徐茜. 神经网络在数据挖掘中的应用研究[J]. 计算机工程与应用. 2000(08) [3] 陈国萍,李巍,刘仲英. 数据挖掘中概念树的标准、生成和实现[J]. 计算机工程. 2000(12)
  [4] 朱天翔,李力. 相关案件的数据挖掘[J]. 计算机应用研究. 2000(03)
其他文献
[摘 要]随着电力系统的迅猛发展,10KV真空断路器已广泛应用于我国的中低压电网,已经大批量地生产和使用,对于一线技术人员来说,掌握真空断路器的操作要点,分析处理真空断路器的常见故障,加强真空断路器的保养与维护,使其安全运行,成为一个迫在眉睫的问题。  [关键词]真空断路器 安装技术 检修中应注意的事项  中图分类号:D162 文献标识码:A 文章编号:1009-914X(2015)07-0302
期刊
[摘 要]对量子力学的数学基础进展的问题,不仅是现代物理学的问题,以及语言哲学,科学哲学的研究对象,物理学和哲学问题,一直是一个重要的驱动力,促进科学哲学的发展。本文叙述了量子力学数理基础进展以及对量子力学的各种诠释做了总结。  [关键词]量子力学 系统诠释 量子信息 测量理论  中图分类号:F513 文献标识码:A 文章编号:1009-914X(2015)07-0297-01  1.引言  量子
期刊
[摘 要]随着科技的不断进步,天气预报的手段和技术都有了很大的发展,高科技手段在天气预报中的应用,使得天气预报的精准度有了很大的提升,但这些手段的应用仍然还离不开人的因素,所以人的经验、对以往众多数据的总结及数据结论的判断仍然是其他手段代替不了的,更多的基础工作还是要气象基站的预报员一条一条具体实测得出来的,细节决定成败,在实测的过程中,常遇到这样那样的小问题,如不加以注意,引起重视,往往会对预报
期刊
[摘 要]本文分析总结了皮带输送机的技术故障,有针对性地从技术管理的角度提出了防护措施。  [关键词]机械 运输机 技术故障 技术对策  中图分类号:G123 文献标识码:A 文章编号:1009-914X(2015)07-0292-01  皮带输送机是矿井主要运输设备,它的功能是输送煤炭、材料或人员。由于技术及操作等方面的原因,皮带输送机故障时有发生。因此,了解皮带输送机的工作原理、分析输送机故障
期刊
[摘 要]在进行岩矿测试数据处理过程中需要对岩矿测试数据处理进行适当误差分析能够保证岩矿测试数据的科学性和准确性。采取灰色误差理论能通过对岩矿测试数据进行智能化、自动化动态误差分析来进行对数据的调控。本文结合目前灰色误差理论在岩矿测试数据处理中的应用实际,对灰色误差理论在岩矿测试数据处理中的应用进行了探讨研究。  [关键词]灰色误差理论 岩矿测试 数据处理 工程应用  中图分类号:G51 文献标识
期刊
[摘 要]随着科技的发展和人们对生活质量要求的提高,便携式电子设备正成为一种新的发展趋势。便携式电子设备大多有音频输出,那就需要有一个音频放大器。另外它们都是电池供电,单次使用时间和电池寿命也是不可忽视的问题。在这样的需求下,D类放大器便成了首选,它的特点是能保持在低失真的情况下得到高效率音频输出。  [关键词]D类放大器 音频输出 PWM  中图分类号:D112 文献标识码:A 文章编号:100
期刊
[摘 要]随着社会的发展与科技的进步,越来越多的建筑开始建设成智能型大厦。综合布线是智能建筑的重要组成部分,在智能建筑中综合布线的设计不仅决定了通信的质量,而且决定了布线的成本投入以及网络的性能。本文叙述了综合布线的概念和重要性,介绍了智能建筑中综合布线系统设计的组成与方法,从而更好的推动智能建筑的发展,为智能建筑提供更加合理、科学的综合布线系统。  [关键词]智能建筑 综合布线 系统  中图分类
期刊
[摘 要]上反稳像平台直接影响火控系统性能的发挥,本文采用了实装系统静态和动态相结合、离线和在线相结合的方式,搭建一套既可以对上反稳像平台进行故障诊断,又能完成性能检测的系统。  [关键词]上反稳像 检测  中图分类号:F213 文献标识码:A 文章编号:1009-914X(2015)07-0305-01  一、 引言  目前上反稳像平台在军事上的应用越来越广泛,在稳像工况下,瞄准线独立稳定,火炮
期刊
[摘 要]早在七十年代,人们开始研究无线电通信技术。无线电通信技术有线电通信相比,具有不用架设传输线路线、脱离传输距离限制、传输距离远、通信灵活等优点,备受市场的青睐。无线电通信技术为人们的生产和生活带来的影响无疑是巨大的,但它亦有不容忽视的缺点,譬如声音、文字、数据、图像和视频等传输的质量不甚稳定,由此造成的声音失真、文字模糊、数据滞后、图像和视频失真都亟须改进之处,还有信号容易受到干扰、容易被
期刊
[摘 要]本文简要地介绍了陶瓷颗粒增强钢基复合材料的几种常用制备方法和研究进展。并介绍了钢基复合材料的机械性能。最后阐述了钢基复合材料目前存在的问题和发展趋势。  [关键词]陶瓷 颗粒增强 钢基复合材料  中图分类号:D112 文献标识码:A 文章编号:1009-914X(2015)07-0304-01  0. 引言  随着现代工业的发展,在高温、磨损与腐蚀等恶劣工况条件下工作的设备,迫切需求高效
期刊