基于FP-树的频繁模式和长模式挖掘

来源 :郑州大学 | 被引量 : 0次 | 上传用户:songxuesen70
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据库的规模急剧膨胀,数据库应用的不断深化,但是数据库管理系统却没有提供有效的工具和方法来利用这些数据,出现了数据丰富而知识贫乏的状况,导致了数据挖掘的出现。作为数据挖掘中重要任务之一的频繁模式的挖掘,被应用在关联规则、相关分析、序列模式、显露模式、最长模式等许多重要数据挖掘任务中,得到了广泛研究。 长期以来,挖掘频繁模式主要采用Apriori算法及其改进形式,这类算法需要产生大量候选项集,并反复扫描数据库,降低了挖掘的效率。FP-Growth算法是一种基于模式增长的频繁模式挖掘算法,避免了大量候选项集的产生,只需要两次扫描数据库。效率比Apriori算法快一个数量级。然而,此算法及其改进形式在挖掘频繁模式时不可避免地需要递归地创建附加数据结构,并且每当模式增长时就要创建一次。动态地创建如此大量的附加数据结构,将耗费大量时间和空间。并且以上算法对于不同特点的数据库没有较好的适应性。 本文基于模式增长的思想,提出两种新的频繁模式挖掘算法:最小项优先的挖掘方法和最大项优先的挖掘方法。其通过采用一定的挖掘策略,使整个挖掘过程直接在初始生成的压缩的数据结构中进行,而不需要另外递归创建附加的数据结构。使频繁模式挖掘的效率得到了进一步的提高。使用相同的数据集,性能研究表明:算法速度大约是FP-Growth算法3~4倍,而所需要的存储空间不到FP-Growth算法的一半。对于稠密数据集,算法的优势更加显著。 利用深度优先的方法符合最长模式挖掘的性质,基于最小项优先的频繁模式挖掘算法,提出了新的挖掘长模式算法。采用挖掘尽可能长的频繁模式和忽略对与约束项集具有相同支持计数的项处理的策略,大大地减少了算法的搜索空间;具有分而治之性质的过滤策略较大地提高了算法的效率。在相同条件下使用相同的数据集,与最近出现的同类算法相比,效率提高几倍,特别是对于稠密数据集,效率更加明显。
其他文献
面对快速多变的市场环境和企业用户需求的多样化趋势,电子商务系统应充分利用以网络为核心的各种信息技术来构造它的软件系统;而是否能够快速地构建一个性能良好的软件系统,是一
TSP问题(traveling salesman problem)是一个组合优化方面的问题。它的定义很简单,求解难度却相当的大,吸引了许多包括数学、运筹学、物理、生物和人工智能等各个领域的研究者,
随着嵌入式系统在许多领域的广泛应用,用户对嵌入式系统的要求已经不仅仅停留在保证系统的实时性、紧凑性和高性能,对于可信性的要求也日益增加。系统的可信性包含安全性、可靠
随着互联网技术的高速发展和各种监控设备和传感器的普及,工业界开始面临海量的数据所带来的挑战,已经进入了大数据时代。在这些海量的数据当中,有一类数据叫做时间序列数据。时
并行DFT是解决大数据量DFT运算耗时过久的重要途径,在PC机群上实现并行DFT是一种低成本、高效率的解决方案.该论文首先介绍了并行计算的基本理论,然后介绍了计算机机群系统和
状态空间搜索是解决优化问题的常用方法之一,传统的状态空间搜索求解技术有回溯法和分支限界法以及隐式图搜索这些算法策略作为理论指导。这些策略的缺点是不够具体化,对每个特
如何进行对象持久化是在面向对象分析设计中需要解决的问题.该文通过对面向对象数据库技术及对象数据模型技术的实现目的和优劣的分析,分析了面向对象技术中的对象模型与关系
该文针对电信运营商迫切要求建设企业级经营信息数据仓库的应用背景,主要研究了数据仓库建模技术在电信行业中的应用.在介绍了有关课题背景之后,阐述了数据仓库和数据仓库建
无线网络具有可移动、成本低、效率高和易于部署的特点,使得无线网络得到了快速的发展和广泛的应用。无线网络协议中广泛存在着并发的、非确定的或者随机的行为,导致从一个初始
机场飞机动态监控是获取机场运行规律的重要手段,可用于异常报警,有着重要的军事意义。遥感技术的兴起和高速发展产生了遥感大数据,其中机场高分辨率遥感影像序列为监控机场飞机