【摘 要】
:
频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。本文对大量频繁项集挖掘算法进行
论文部分内容阅读
频繁项集挖掘是一类重要的数据挖掘问题,可以广泛应用在关联规则挖掘、相关性分析、入侵检测、序列模式、分类和聚类等多种数据挖掘任务中。本文对大量频繁项集挖掘算法进行了深入的研究与分析,主要分析了不同算法中事务数据库在内存中的存储形式,以及各种有效的实现技巧。特别对多种前缀树型结构进行了分析比较,分析了各自的特点以及内存占用情况。 本文提出了一种新的频繁项集挖掘算法——F-Miner,该算法使用了两种新的数据结构:FP-Forest以及AFP-Tree。AFP-Tree构建时,频繁1-项集按支持度递增的顺序排列,遍历方式采用自顶向下深度优先的策略。AFP-Tree的根是一个可以标识这一棵树的具体的项。一个事务数据库在内存中要用多棵AFP-Tree存储,这些AFP-Tree构成FP-Forest。 在F-Miner算法的执行的过程中,每一次递归都要牵涉到AFP-Tree的构建与释放,在这一过程中要频繁地申请与释放内存,造成程序效率的下降。为了解决这一问题,本文设计了高效内存管理器(HPMM)来负责内存单元的申请与释放。 实验结果表明AFP-Tree和FP-Forest是两种有效的数据结构,F-Miner算法是一个高效的频繁项集挖掘算法。
其他文献
网格计算是借鉴电力网的概念提出来的。利用网络把分散在不同地理位置的计算机组织成一个“虚拟的超级计算机”,其中每一台参与计算的计算机就是一个“节点”,而整个计算环境
生成具有真实感的场景是计算机图形学领域内的一个重要部分,这项技术在国民经济各个领域中有着广泛的应用价值和广阔的应用前景。本论文来源于实际的工程项目,主要研究的是如何
随着网络计算技术的迅速发展,分布在不同地点的异构资源可以通过网络互联成一个松散耦合的计算环境,也就是分布式计算环境。由于分布式计算环境中的计算节点都是松散耦合的,
随着Internet应用的不断普及和深人,信息安全的形势日趋紧迫,使得身份认证、权限管理和分配,以及如何保障数据安全等技术,已经成为当前的研究焦点。 PKI(Public Key Infrastru
在计算机信息技术飞速发展、信息化系统广泛应用的今天,报表是办公自动化及管理信息系统、专家系统,决策支持系统等系统中信息处理和交互的主要方法和手段之一。本课题以林业
随着市场经济的发展,企业信用成为一个越来越值得关注的问题,如何才能更加客观、准确而全面地评估企业的信用也自然成为了一个越来越重要的问题, 过去研究企业信用,一般都忽略
卡通是一种以绘画等造型艺术为主要表现手段的艺术形式,现已成为当今人们最喜爱的媒介传播形式之一,广泛应用于电视动画片、动画电影以及游戏开发等领域中。 渲染技术可以
利用低压电力线路进行高速数据通信无需另外布线,安装和使用方便,成为宽带网络多元化的发展方向之一。但目前国内电力线宽带接入终端(基于Intellon51X1芯片)只提供MAC层管理接
MIPS的意思是Microprocessor without Interlocked Pipeline Stages,即无内部互锁流水级的微处理器,它是世界上很流行的一种RISC处理器。与CISC相比,RISC的设计周期更短,设计也更
本文主要讨论了三维几何网格模型的几何压缩算法的现状。并针对目前拓扑压缩算法大都仅适用于三角形网格的现状,提出一种新型的无损压缩算法以及其实现方法。该算法的特点如下