基于Apriori和FP-TREE的频繁项目集挖掘算法

来源 :南华大学 | 被引量 : 8次 | 上传用户:Longee
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的日益进步,积累的数据量也在飞速增加。这导致了海量的数据存储在数据库,数据仓库和其他存储库中。因此,数据挖掘开始越来越引起人们的重视,而分析数据库以提取有用或以前未知的模式和规则,称之为关联规则挖掘。在数据挖掘中,关联规则挖掘成为描述性技术的重要任务之一,可以将其定义为从大量数据集中发现有意义的模式。而挖掘频繁项目集是关联规则挖掘的基础。因此,本文研究问题就是研究如何快速挖掘频繁项目集。本文首先介绍了过去几十年来已提出的许多经典频繁项目集挖掘算法,包括基于水平布局的技术,基于垂直布局的技术和基于矩阵布局的技术,为提出性能和功能更优的频繁项目集挖掘算法作好理论准备。但是为了挖掘频繁模式,目前大多数技术都需要遭受多次重复数据库扫描,候选集生成(Apriori算法),内存消耗问题(FP-tree算法)以及更多问题的困扰。正如在零售行业中,许多事务数据库包含多次相同的事务集合,为了应用这个想法,针对Apriori算法和FP-tree算法的缺陷,本文中我们提出了一种新技术,它结合了当前的Apriori(改进的Apriori)和FP-tree技术以保证比经典的apriori算法更好的性能,新方法首先利用改进的Apriori算法寻找最大频繁项目集,然后仅考虑数据库中的包含1项集但不包括在最大频繁项目集中的频繁元素的那些事务来修剪数据库,并基于修剪的数据库构造FP-tree,并通过实践证明,在购物篮数据集中新方法无论是在时间和内存消耗方面都要优于Apriori算法和FP-tree算法。
其他文献
目标跟踪作为人工智能的重要基础研究,在很多领域具有重要的应用。目前基于相关滤波器和深度学习的方法在目标跟踪领域取得了巨大的成功,但是构建一个高精度且鲁棒的目标跟踪系统仍然是一个巨大的挑战。本文以深度孪生网络模型为理论基础,重点关注网络中的模板选取、特征提取和分层特征,并结合相关滤波算法开展研究工作,具体的研究工作概括如下:(1)提出了一种通过注意力机制结合第一帧和上一帧模板的目标跟踪方法,在复杂背
用特殊的高分子微球粘接技术制备成型用模板,通过注浆成型制备出孔结构可控的球形多孔羟基磷灰石(hydroxyapatite, HA)支架。重点研究了 HA 支架的制备工艺参数对孔结构的影响
与西汉相比,东汉的都城卫戌部队人数减少了,其代表北军虽拥有优越的装备补给和地位,但受制于种种因素,既没有切实履行卫戍职责,也没有发挥出野战效能。在都城的战略安全环境变化后
在当今,企业与社会大众生产生活联系日益紧密,人民群众对“做负责任的企业公民”的呼声也日益增高。企业报如何改进新闻报道,突破“出身局限”,提升影响力,扩大传播效果,树立企业良
基于近红外光下的虹膜识别是一种具有高识别率与鲁棒性的身份识别方法。随着智能手机的广泛应用,在智能手机上支持基于虹膜的身份识别具有较大需求。由于大多数智能手机没有配置近红外摄像设备,因此研究可见光下的虹膜识别,具有重要的理论意义和实际意义。由于智能手机的可见光虹膜成像分辨率低,纹理特征不清晰,特别是亚洲人种,他们虹膜可见光的透光度更低,因此在智能手机上实现基于可见光的虹膜识别存在识别率低、鲁棒性差、