基于投影表结构的ToP-k高效用模式挖掘算法的研究及并行化处理

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:xoyo7908114
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机和互联网技术的普及与快速发展使得数据的产生、收集、存储日益便捷,因而数据量呈爆炸式增长。但是信息过载,使得人们面对海量的数据往往无从下手。因此频繁模式挖掘被提出用于找出事物间的内在联系,并被广泛地应用于商品推荐、疾病诊断、入侵检测等方面。然而频繁模式仅关注模式在事务数据库中出现的频率,却忽略了构成模式的项本身所具有的权重值。因此高效用模式挖掘算法被提出,它综合考虑了构成模式的项的权重信息与频率间的关系,具有更高的实际意义。  但是,在挖掘高效用模式前需要用户设定最小效用阈值,而最小效用阈值的设定更多地依赖于用户的经验,对于经验不足的用户来说,不合适的阈值设置使挖掘结果千差万别。而且在实际应用中,人们更倾向于关注效用值最高的前k个模式。因此提出了Top-k高效用模式挖掘算法。在Top-k高效用模式挖掘中,仅需设定k值即可挖掘出效用值最高的k个模式,避免了经验在阈值设定中的主导作用,从而降低了高效用模式挖掘在应用中的准入门槛。  然而,目前Top-k高效用模式挖掘算法存在临时效用阈值上升速度慢、时间性能差、算法可扩展性差的问题。针对这些不足,本文提出了基于投影的Top-k高效用模式挖掘算法来解决这些问题,同时针对在海量数据下单机模式挖掘效率低的问题,提出了基于MapReduce的Top-k高效用模式挖掘分布式的解决方案。本文的主要工作如下:  1.提出了基于投影表结构的Top-k高效用模式挖掘算法TKHUP。该算法是一阶段的Top-k效用模式挖掘算法,采用投影表结构能直接读取效用值,并快速提升临时效用阈值,从而有效地挖掘出指定数量的高效用模式。  2.提出了基于MapReduce的分布式Top-k高效用模式挖掘算法TKHUP-MaR。本文通过研究和使用MapReduce并行技术,实现了在大数据场景下挖掘Top-k高效用模式的方法,从并行计算、并行构建存储结构、并行挖掘三个阶段来实现该并行算法。  3.设计了五个策略提高算法的挖掘效率。策略CSD能够极大地合并前缀模式相同的投影结构,从而节省更多的内存空间。策略QPPR通过前缀项数字和能够快速比较前缀模式是否相同,便于加快投影结构的生成。策略DS优先对效用值大的基模式进行挖掘,从而提高临时效用阈值的增长速度。策略DFP采用深度优先挖掘的方式,对正在处理的投影迭代地构建其子投影结构,能够快速提高临时效用阈值。策略DPUP利用事务权重向下闭包特性,排除为低效用模式构建子投影,加快挖掘的速度。  4.通过在稀疏数据集和稠密数据集下的实验对比,从运行时间和内存空间上证明了TKHUP算法性能优异。另外,通过在Hadoop平台下的实验结果验证了TKHUP-MaR算法的可行性和扩展性。
其他文献
随着我国经济的快速发展和城市大规模的建设,工程项目也越来越多。工程数据信息本身复杂而繁多,直接导致造价数据的管理更加复杂。工程项目的成本和业务需求迅速的增长,这就要求
经典粗糙集理论的提出主要是针对完备信息系统,其对数据的完整性和精确性要求很高,在数据的处理和分析上存在着一定的局限性。由于现今海量数据中常常存在数据的缺失。作为经
近年来,能耗已经成为嵌入式系统设计中人们关注的焦点,这主要是因为电池供电的便携式和移动式的嵌入式产品的广泛应用。高速缓冲存储器,即Cache,是为了解决存储器和CPU速度匹配而
逆向工程技术是近年来发展起来的一种新的工程设计技术,以其独特的优势逐渐渗透到了各类产品行业,成为现代产品设计的主流技术。逆向工程主要包括三个部分:三维数据测量、数据预
实时多媒体流的传输不仅需要解决传统Internet固有的网络拥塞问题,而且需要满足其实时性要求,因此,解决实时多媒体流的传输问题具有较高的理论意义和工程实践意义。本文在研
随着自然语言处理、数据挖掘等技术的发展,尤其是搜索引擎的广泛应用,人们可以很高效地将原本分散的信息组织在一起,普通用户也能便捷地从网络中获取期望的信息。然而强有力
信息技术和互联网技术的飞速发展,产生了大批服务于各行各业的企业管理信息系统,同时也带来了“信息孤岛”问题。企业应用集成技术一开始就致力于各异构系统之间的信息交互和资
现代汽车中电控单元数量不断增加使得汽车变得更安全更智能化,但不同硬件的电控单元使得汽车电子软件的可复用性大幅降低,严重影响产能和新产品的研发。基于这种情况,汽车电子业
随着科技的不断发展,单片机技术被广泛地应用于各个领域,极大地改善了人们的生活水平。单片机的应用将会越来越广泛,企业将需要大量的单片机人才,而高校是人才培养的摇篮,但是目前