一种基于模式变换的高效关联规则挖掘算法

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:ufo0101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
挖掘事务数据库、时间序列数据库中的频繁模式已经成为数据挖掘中很受关注的研究方向。以前的研究大致可以归纳为两类:一类是类似于Apriori的候选集产生与测试方法,但是在频繁模式较长时,生成候选集需要很大开销;另一类是不产生候选集的算法如FP-growth算法,它比Apriori算法有较大的性能提高,但仍存在着一定的缺点:通过条件模式基的分析产生频繁模式仍然需要大量的开销。 本文针对FP-growth算法的不足,给出一种基于频繁模式树的频繁模式挖掘算法FP-reduce。它采用FP-tree的数据结构来存储所有的频繁模式信息并对FP-树的每一个结点都进行剩余保存,即对每一项集中的每一项都复制一份除去该项的剩余项集,并将其添加到FP-树中,这样就可以在保存了原来项集的信息的基础上对原来的项集进行处理:保留或者删除,而不丢失信息。剩余保存使得所需计算的频繁模式不断地缩短,最终可得到所有的二项以上的频繁项集形成的FP-树。 理论和实验表明,该算法具有优良的性能,特别是当数据集扩大到一定程度后,FP-reduce在线性方面要优于FP-growth。
其他文献
随着计算机网络技术的飞速发展,互联网已成为海量信息的主要载体,如何有效的利用这些信息,对人们来说是一个巨大的挑战。搜索引擎作为信息检索的工具,现已成为用户访问互联网的入
互联网的飞速发展促使电子商务大范围的开展,由于传统的分布式计算模型在互操作性方面的局限,从而不能最大限度的利用Internet上的资源,也很难实现真正意义上的资源共享。以X
在大型的、现实世界数据库或数据仓库中的数据有一些共同的特点:数据不完整(有些感兴趣的属性缺属性值,或只包含聚集数据)、含噪声(包含错误的或存在偏离期望的孤立点值)、数
计算机网络的飞速发展、个人多媒体终端的广泛普及、实时流媒体业务的蓬勃发展将我们推向了一个新的网络应用的时代,传统的流媒体应用由于技术和商业因素并没有考虑数据安全
机器人足球比赛是近年来在国际上迅速开展起来的高技术对抗活动,是体育与高科技结合的产物,是人工智能发展历程中继IBM的“深蓝”战胜人类国际象棋大师之后遇到的又一个里程碑
随着全球能源危机的加剧和现代社会对电力需求的增加,智能电网的概念应运而生,并在最近两年成为了全球范围内专家学者讨论和研究的热点,越来越受到各国政府、电力企业以及相关研究机构的关注。智能电网,国外一般称为“Smart Grid”,本质上就是智能化的新型电网。与传统电网相比,智能电网在带来诸多益处的同时,也面临着更多的安全问题和挑战。此外,智能电网中移动用户即时用电和户外用电的需求在不断增加,但是现有
PCI总线微机接口实验系统是帮助学生学习现代计算机接口技术的辅助教学系统。该系统是在ISA总线微机接口实验系统的基础上为适应PCI总线技术和Windows操作系统而研发的。该系
发达国家药品管理计算机化水平很高,有一套完整、科学的实时成本核算系统,尤其对客户关系管理(CRM)有一整套完善的分析与运行指导软件系统。因此,研究、设计、开发我国自主版权
商业流程执行语言(Business Process Execution Language for WebServices,简称BPEL4WS或BPEL)是一种基于XML的工作流定义语言,它使企业能够使用Web服务来实现复杂的业务流程
车间生产调度在企业生产经营活动中占有十分重要的地位。生产调度系统也是CIMS、ERP等系统中的重要组成部分。由于车间作业调度问题是一个典型的NP-hard问题,因此受到学术界和