大型数据库有效挖掘关联规则新方法研究

被引量 : 2次 | 上传用户:quanminyingyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘是一项在大规模数据中寻找有用规则的逻辑过程。过去三十年间,计算机硬件和系统软件的指数倍增长使得功能强大的计算机、数据采集仪器和存储媒体被大规模采购。这项技术刺激了数据库和信息产业的发展,带动了工业界交易管理信息检索和数据分析,从这些数据中抽取关联规则成为数据挖掘中一项重要和有挑战的任务。关联规则挖掘是数据挖掘中的一种描述性的技术,它可以定义为从大规模数据中发现有意义模式的过程(在交易数据中共同出现的项目集)。挖掘频繁模式是关联规则挖掘的一个基础部分。数据挖掘指的是从大规模数据中抽取或挖掘知识。然而,关联规则挖掘之前的研究大多采用一种类似Apriori算法从交易数据中产生关联规则。这种类Apriori算法有两个缺点:需要产生数量庞大的候选集合,需要反复扫描数据库并且从候选集合中检查模式匹配。此论文的目的是探索关联规则挖掘算法并且提出一种新的关联规则挖掘算法,得到比类Apriori算法更好的性能。本文提出的算法结合了模式增长方式和apriori规则生成方式。本文的另一个目的是将提出的模型应用到真实购物篮分析中,以评估其有效性。从算法分析得到的知识可以提高商品促销活动的效果。通过在搜集的和已有的数据集上进行的实验,本文提出的算法在稠密数据集和稀疏数据集上都优于类Apriori算法的性能。本文主要分为五个部分:第一章介绍了数据挖掘的背景基础知识。第二章正式提出了频繁项目集挖掘问题并且介绍了关联规则挖掘领域最近的研究状况。第三章比较了频繁模式增长策略,并且提出了本文的算法。第四章利用提出的算法在个超市数据集上进行了实验。第五章进行了算法的评估并最后总结并指出了未来工作。
其他文献
通过对留守青少年心理健康影响因素的分析,本文探讨如何在体育训练中将心理健康教育有目的、有针对性地直接渗透其中,将身体健康和心理健康进行有机结合,以达到增强青少年身心健
钢管与混凝土之间的黏结性能是保证钢管混凝土结构或构件共同工作的基础,但目前的试验中,极少考虑核心混凝土膨胀性。在保证各试件其他条件相同的情况下,在各试件的核心混凝
区域经济一体化是经济发展的必然规律,而交通一体化是实现区域经济一体化最重要的基础条件。从区域交通一体化的概念入手,深入分析兰白区域发展与区域交通一体化的关系,在此基础
本文探讨在高校连续扩招和高等教育大众化的趋势下,深入剖析在高等数学的教学中如何处理学生数学应用能力的培养与数学知识的获得之间的关系,在此基础上探索高等数学教学内容
本文主要介绍了高强度铸造铝合金(ZL205A)大型复杂优质挂架梁铸件的研制情况。由于该铸件结构复杂,其轮廓尺寸既长又扁,非常易于变形,所以保证挂架铸件冶金质量和尺寸相对稳
撒旦是弥尔顿《失乐园》中最具争议的人物,几百年来唯撒旦派和反撒旦派就为撒旦的形象争论不休,至今也没得到共识。两派各执撒口.形象的一方面而争论,唯撒旦派认为撒旦是个敢
抽取近年来在我院收治的120例患有反复性呼吸道感染的患病儿童,随机分为试验组和对照组各60例。对照组采取常规临床治疗模式,试验组在常规治疗的基础之上加入胸腺肽治疗,对两
电影《我们俩》是中国青年女导演马俪文的作品,这部作品以其松散而恬淡的叙事、伤感而柔情的基调、写实而敏锐的视角、真挚而细腻的表现,获得了广泛的好评,荣获了诸多奖项。
《唐山大地震》上映后,观众一片叫好,众多影评人也和观众一样,持表扬、赞美的态度,更有甚者把冯小刚推上了"中国特效巨制的大导演"的位置。冯小刚提前一年就放出的5亿豪言,更
大遗址专指我国历史文化遗产中规模特大、文物价值突出、影响深远的大型考古遗址。国家考古遗址公园是我国大遗址保护领域的新兴事物,它践行了“在保护的前提下利用,在利用过