基于FP-Tree的频繁项集挖掘算法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:jiangyang0121
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘在最近几年里已被广泛的研究和应用,而频繁项集挖掘则是诸如关联规则挖掘、序列模式挖掘等数据挖掘问题中的关键步骤,因此对它的研究具有重要的理论和实际价值。本文的主要工作是对频繁项集挖掘领域内的经典算法FP-Growth进行改进。针对该算法存在的缺陷:挖掘过程中需要递归生成大量的条件FP-Tree来保存投影信息,过度消耗了存储空间。首先分析了造成这种缺陷的原因:原算法对项的处理顺序与投影方向重合,即“向前处理,向前投影”,若直接用原FP-Tree来保存投影信息,则会覆盖掉将来要用到的信息,造成信息的丢失,因此需要条件FP-Tree来保存投影信息。然后给出了相应的改进策略:调整原算法对项的处理顺序或投影方向,使原FP-Tree能够直接存储投影信息,这样算法的所有工作便可完全基于原FP-Tree,从而不再需要任何条件FP-Tree。以此为基础,提出了一种基于FP-Tree的改进算法:NCTree-Growth,并详细讨论了它的两种不同的实现方案:“向后处理,向前投影”和“向前处理,向后投影”,给出了它们的算法伪代码描述和相互间的比较。最后通过对NCTree-Growth算法的进一步优化,使其能够充分利用前面的计算结果,从而减少了投影次数,提高了算法效率。实验表明,NCTree-Growth的内存开销小于FP-Growth,性能也得到了提升。
其他文献
传感器节点部署区域的开放特性以及无线电的广播特性,使得WSN的路由很容易遭到攻击者的破坏。目前,针对WSN的路由协议有很多,在安全路由方面研究主要集中于针对广播路由信息
随着互联网时代的发展,大量的信息数据在不断产生。个性化推荐帮助用户从海量数据中筛选出需求的数据,为了使用户获得更好的推荐体验,如何优化推荐就成为推荐领域的研究热点
近年来本体在知识管理和语义网络中扮演着越来越重要的角色,是许多应用的必不可少的一部分。有了本体的支持,不管是用户还是系统都能使用一个领域的共同理解来进行交流。由于
随着中国移动产品、服务的增多,受理渠道的多样化,网络业务平台也越来越复杂,业务流程的不完善性越来越明显,由于数据不一致情况造成业务、计费及服务的问题日趋严重,由此带来的客
人物检索是互联网用户最重要的活动之一。人物搜索引擎、社会网络构建等与人物相关的网络应用成为研究的热点。人物属性抽取是这些研究的一个重要基础。本文基于维基百科的人
我国是一个农业大国,农业生产在我国的经济生产中占据很重要的位置,随着农业的进一步发展,发展智能农业已经成为了研究热点。智能农业的发展对于计算机的应用提出了更高的要
在现代飞速发展的信息通信领域中,Internet和移动通信的未来发展是两个引人瞩目的方向。随着以IPv6协议为基础的下一代互联网(CNGI)以及3G移动通信网络的部署和应用,以单机移
基于视频图像序列的人体运动跟踪技术是计算机视觉领域中的研究热点之一。人体运动跟踪的目标是从视频图像序列中检测、跟踪运动人体,获得人体运动参数,编辑并利用已经获取的
高速铁路车载单元采用无线通讯协议,和轨旁的无线闭塞中心,或其它与之相关的安全设备交互信息。而这些安全设备之间需要通过认证密钥进行通信,因此需要有专门的密钥管理识别系统
渗透测试是指借助于值得信任的组织试图对信息系统中的漏洞进行探测和开发的安全实践活动。渗透测试已经从不同系统开发阶段的应用测试发展到生产系统中的网络安全测试。同时