【摘 要】
:
关联规则挖掘是数据挖掘领域中一个重要的研究方向,它可以在海量数据中揭示某些特定的规律,辅助决策者进行决策。作为关联规则挖掘中最耗时的部分——频繁模式挖掘,其算法的
论文部分内容阅读
关联规则挖掘是数据挖掘领域中一个重要的研究方向,它可以在海量数据中揭示某些特定的规律,辅助决策者进行决策。作为关联规则挖掘中最耗时的部分——频繁模式挖掘,其算法的好坏直接影响到数据挖掘尤其是关联规则挖掘的效率和应用范围。因此,设计高性能的并行频繁模式挖掘算法具有重要意义。本文在对典型串行算法和并行算法深入研究的基础上,提出了两种并行频繁模式挖掘算法,主要内容如下:首先,提出了一种新的并行频繁模式挖掘算法PBFI-Miner。该算法使用位对象表示数据并对FP-tree进行改进,在挖掘频繁模式时,模式简化为位对象,无需产生大量条件模式基和条件模式树;采用分组处理策略分配挖掘任务,使各处理器负载尽量达到平衡;另外,各处理器之间利用位对象组进行通信传递,以减少通信负载。实验结果表明该算法是有效的。其次,提出了一种数据流下的频繁模式并行挖掘算法PFP-DS。该算法以数据流串行频繁模式挖掘算法FP-DS为基础,采用主从模式设计,通信只在主从处理器间发生,所有从处理器间无通信过程,从而降低了通信代价。其中,主处理器负责各段数据流FP-DS树的更新,并挖掘频繁模式;从处理器负责接收各条数据流,计算频繁1-项集集合并创建数据流的分段FP-DS树,压缩存储频繁模式。实验结果表明该算法是可行的。
其他文献
道路交通标志识别作为智能交通系统一个重要的组成部分,在驾驶安全方面有着重要作用。近些年,道路交通标志识别问题的研究引起人们关注重视。围绕交通标志识别问题本文进行了如
为了支持农村饮用水安全状况调查,我们受陕西省水利厅委托开展了本课题研究开发。其目标是分析和汇总农村饮用水安全状况调查所得的各类数据,确保数据有效规范性,提高工作效率,为
随着多核硬件的不断普及,并发程序编程的使用也越来越频繁,如何解决并发程序中出现的错误也越来越受到人们关注。在并发程序执行过程中,由于线程调度的随机性,使得人们对并发
本文在对运动目标识别与跟踪算法分析的基础上,将新兴的基于GPU的单机并行计算技术用于运动目标识别与跟踪算法的研究中。主要研究了基于CUDA目标的预处理过程,传统运动目标的
近几十年来,传统的确定性数据(deterministic data)管理技术得到了迅猛的发展,在国民经济建设中起到了突出作用。在传统数据库的应用中,数据的存在性和精确性均确凿无疑[1]。
随着网络的快速发展,网络上存在的信息资源也迅速增长,传统的检索结果以线性列表的形式返回,缺乏有效的过滤、组织和汇聚,无法很好地体现文档之间存在的内在关联,而且展示方
随着教育事业的快速发展,考试在各个领域的应用变得十分广泛,因此对考试的研究也越来越深入。当前,指导考试研究的理论主要有经典测量理论和项目反应理论。经典测量理论由于
随着网络技术的飞速发展,全球数据倍增,为大数据的分析和处理带来了困难。Map Reduce作为新兴的数据密集型计算编程模型,在大数据分析与处理方面发挥了重要的作用。而区间连
应用运动捕捉设备能获取高度真实感的三维人体运动数据。然而,人体运动复杂多样,不可能采集到适合每种虚拟环境以及适合每种虚拟人的运动数据,由于捕获区域和设备的局限性,难以获
目标识别是计算机视觉的重要研究课题,而交通灯识别和阴影识别是目标识别中当前研究的热点问题。实时交通灯的识别在辅助驾驶和无人驾驶汽车方面有广泛的应用;而阴影消除关系