浅谈关联规则挖掘技术的研究与应用

来源 :快乐阅读 | 被引量 : 0次 | 上传用户:johnnyxp
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】数据挖掘技术是日前广泛研究的数据库技术,关联规则是表示数据库中一组对象之间某种关联关系的规则。本文简要介绍了关联规则挖掘的相关理论和概念、Apriori算法,最后介绍了关联规则数据挖掘的应用情况。
  【关键词】关联规则 数据挖掘 Apriori算法 应用
  随着数据库技术的快速发展,全球范围内的数据存储量急骤上升,面对这一挑战,数据挖掘技术应运而生, 关联规则挖掘在数据挖掘中是一个重要的课题,最近几年已被业界所广泛研究。关联规则的目标是发现数据集中所有的频繁模式,关联规则挖掘发现大量数据中项集之间有趣的关联或相关联系。
  一、关联规则的定义
  关联规则挖掘的一个典型例子是购物篮分析。关联规则研究有助于发现交易数据库中不同商品(项)之间的联系,找出顾客购买行为模式,如购买了某一商品对购买其他商品的影响。分析结果可以应用于商品货架布局、货存安排以及根据购买模式对用户进行分类。
  二、关联规则挖掘的过程
  关联规则挖掘过程主要包含两个阶段:关联规则挖掘的第一阶段必须从原始资料集合中,找出所有高频项目组(Large Itemsets)。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。关联规则挖掘的第二阶段是要产生关联规则(Association Rules)。根据定义,这些规则必须满足最小支持度和最小可信度。
  三、关联规则分类
  1.基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;而数值型关联规则可以和多维关联或多层关联规则结合起来,对数值型字段进行处理,将其进行动态的分割,或者直接对原始的数据进行处理。
  2.基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。在单层的关联规则中,所有的变量都没有考虑到现实的数据是具有多个不同的层次的;而在多层的关联规则中,对数据的多层性已经进行了充分的考虑。
  3.基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。在单维的关联规则中,我们只涉及到数据的一个维;而在多维的关联规则中,要处理的数据将会涉及多个维。
  四、关联规则挖掘相关算法
  1.Apriori算法:使用候选项集找频繁项集。Apriori算法是关联规则挖掘的基本算法,是由Rakesh Agrawal和Ramakrishnan Srikant两位博士在1994年提出的关联规则挖掘算法。首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。
  2.基于划分的算法。Savasere等设计了一个基于划分的算法。这个算法先把数据库从逻辑上分成几个互不相交的块,每次单独考虑一个分块并对它生成所有的频集,然后把产生的频集合并,用来生成所有可能的频集,最后计算这些项集的支持度。这里分块的大小选择要使得每个分块可以被放入主存,每个阶段只需被扫描一次。而算法的正确性是由每一个可能的频集至少在某一个分块中是频集保证的。该算法是可以高度并行的,可以把每一分块分别分配给某一个处理器生成频集。产生频集的每一个循环结束后,处理器之间进行通信来产生全局的候选k-项集。通常这里的通信过程是算法执行时间的主要瓶颈;而另一方面,每个独立的处理器生成频集的时间也是一个瓶颈。
  3.FP-树频集算法。针对Apriori算法的固有缺陷,J. Han等提出了不产生候选挖掘频繁项集的方法:FP-树频集算法。采用分而治之的策略,在经过第一遍扫描之后,把数据库中的频集压缩进一棵频繁模式树(FP-tree),同时依然保留其中的关联信息,随后再将FP-tree分化成一些条件库,每个库和一个长度为1的频集相关,然后再对这些条件库分别进行挖掘。当原始数据量很大的时候,也可以结合划分的方法,使得一个FP-tree可以放入主存中。实验表明,FP-growth对不同长度的规则都有很好的适应性,同时在效率上较之Apriori算法有巨大的提高。
  五、关联规则应用领域
  关联技术不但在商业分析中得到了广泛的应用,在其它领域也得到了应用,包括工程、医疗保健、金融证券分析、电信和保险业的错误校验等。它的主要挖掘对象是事务数据库。关联挖掘技术在西方主要应用于金融行业企业中,可以成功预测银行客户需求。一旦获得了这些信息,银行就可以改善自身营销。另外,关联规则也可以服务于cross-sale(交叉销售)。交叉销售是一种行销技巧,它是指向顾客推销与其已有消费有关的产品与服务。通过分析老顾客的购买记录,了解他们的产品消费偏好,给他们提供其它产品的优惠及服务,这样不但能留住他们还可以使他们逐渐熟悉另外的产品,公司从而以尽快的速度获得利润。
  参考文献:
  [1]David Hand,Padhraic Smyth.张银奎,廖丽,宋俊等译.数据挖掘原理[M].北京:机械工业出版社.2003(4).
  [2]秦亮曦,史忠植.关联规则研究综述[J].广西大学学报:自然科学版.2005(4).
  [3]毕建欣,张歧山.关联规则挖掘算法综述[J].中国工程科学.2005(4).
  (作者单位:沈阳职业技术学院计算机学院)
  编辑/李文亮
其他文献
【摘要】无论过去、现在和将来,健康一直是人类追求的永恒主题。拥有健康的体魄是青少年为祖国和人民服务的基本前提,是中华民族旺盛生命力的体现。体育是学校培养全面发展的社会主义建设者和接班人的一项重要教育内容,今天学生的体育锻炼直接影响着中华民族健康素质的提高。我身为一名体育教师第一线的工作者,为中国体育事业的飞速发展而高兴。同时就本职工作,如何提高学生身体素质谈谈自己的看法。  【关键词】学生 身体素
【摘要】语言是人们进行交流和沟通的工具,幼儿时期是口语能力发展的最佳时期,发展孩子口头语言是培养孩子接受一切教育的基础。《学前教育纲要》中指出,幼儿语言是通过生活中的运用而发展起来的,单靠教师直接的‘教’是难以掌握的,因此,在小班口语训练时,除了课堂教学外,我认为可以从以下几方面入手,做个有心人有达到口语能力发展的目的。  【关键词】幼儿口语 语言沟通 基础教育 小班  一、一日生活中,做有心人 
自主学习能力已成为现代人不被时代淘汰的基本能力之一,这源于信息技术的发展及科学技术的进步,使得各个领域的知识更新换代速度加快,故步自封、无法及时更新知识的人终将无
期刊
通过鞍钢弓长岭井下铁矿西区试验矿块有底柱阶段崩落法的试验研究,提出了适合该矿体开采条件的采矿方法和底部结构参数,应用简单易行的两步骤放矿制度,采取加强凿岩爆破质量控制
随着经济的发展,建筑事业也得到了前所未有的进步,并且已经开始成为我国经济发展中的主要支柱了.在建筑工程中,造价预结算工作是建筑工程管理中非常重要的一个组成部分,在很
伴随着我国经济的不断增长,社会的不断进步,城市化的快速发展,,建筑行业的发展有了越来越大的进步,也增加了建筑工程的数量.目前,建筑工程发展主要由土建施工技术来决定,土建
随着我国社会经济的快速发展,音乐剧声乐演唱教学内容也逐渐丰富起来,学习音乐剧专业的学生逐渐增多。同时,由于学生对音乐剧的掌握程度不一样,教师在教学过程中需要充分考虑
期刊
【摘要】课堂不只是传授知识的场所,更应是学生探究知识的场所,课堂不是教师教学行为模式化运作的车间,而是教师教育智慧充分展现的舞台。  【关键词】小学数学 课堂教学 思考  《数学课程标准》的核心理念是以人为本,一切从学生的实际出发。学生学习过程是获取知识、收集信息,将得到的知识、信息进行整理加工、组合,纳入到已有的认知结构中的一种过程。这种内化过程,需要受教育者主动完成。下面就谈谈笔者对小学数学教
取向硅钢是一种要求具有单一高斯织构({110}<001>)的软磁材料,沿轧制方向表现出高磁感、低铁损等特性,非常适于制备变压器铁芯。取向硅钢的传统生产流程一般分为高温加热和低
随着我国建筑产业的整体发展速度不断加快,建筑装饰施工对绿色环保材料的应用程度越来越高,大大提高了建筑装饰施工的整体质量以及节能化效果.本文有效结合我国长沙市一处矿