海量数据高效用项集挖掘算法设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:0364jill2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
海量数据上的高效用项集挖掘是一类非常重要的查询,高效用项集挖掘是频繁项集挖掘在项存在权重时的一种扩展,本文处理高效用项集挖掘的两类研究:高效用项集挖掘和top-k高效用项集挖掘。高效用项集挖掘给定效用阈值,返回效用不小于阈值的所有项集,而top-k高效用项集挖掘给定项集的个数k,返回效用最大的k个项集,这两类研究根据不同的条件而定,都能为用户提供相应的决策支持。首先,本文研究海量数据上的高效用项集挖掘,本文提出首先提出了基线算法BA(Baseline Algorithm),BA执行一轮扫描,将无法放入内存的数据进行划分,获得较小的分片数据,对每个分片执行相应的扫描和处理,最终获得满足条件的高效用项集。由于生成的分片过多,为了减少分片生成数量,本文提出了两轮扫描实现预处理分片的HIM(High utility Itemset mining on Massive data)算法。HIM算法在两轮扫描中,依次构建了分片矩阵和分片数组,并根据分片数组和内存限制的分片阈值生成更少的分片,减少了生成的数量;在处理每个分片的时候,使用两个策略构建相应的RCAUL,使用增强的单例性质和闭包性质在递归处理时早结束。实验结果表明,HIM算法可以在海量数据上高效地执行高效用项集挖掘。其次,在top-k高效用项集挖掘中,本文提出top-k高效用项集挖掘的算法KUIM(top-K high Utility Itemset mining on Massive data)。KUIM同样分为两个阶段,在预处理阶段,除了实现相应的分片功能,还执行了多个预计算,用于实现内部阈值的初始化以及方便后续的剪枝。在正式处理阶段,先使用预计算的两个矩阵MU和LIU对阈值进行相应的初始化,在每个分片处理过程中,使用四个策略对分片和分片内的事务进行处理,构建更节省内存的i RCAUL结构,并将所有可能的项集放入一个最小堆中,最后将最小堆内的结果返回。实验结果表明,KUIM算法预处理比起现有的最好算法产生分片数更少,同时在分片处理方面更快。最后,本文以HIM和KUIM算法为核心,实现了海量数据的高效用项集挖掘系统。该系统能够很好地完成高效用项集的两类挖掘。
其他文献
跨语言词嵌入指不同语种的单词对应的表示处于相同的向量空间之中,从而可以方便地度量不同语种的词之间的相似程度,无监督跨语言词表示学习旨在不借助任何的外界跨语言信息来进行跨语言词表示的学习。现有的无监督跨语言词表示学习虽然取得了一定的成果,但仍然存在着不足之处。缺点之一便是自学习步骤中的双语翻译词典获取方法较为简单,不能为后续迭代步骤提供高置信度的双语关联信息,影响了自学习过程的学习效果,并对最终获得
肺癌是最常见的癌症之一,它的发病率和死亡率增长很快。针对不同肺癌亚型,其治疗方案区别很大,如鳞癌以放疗为主;而腺癌则以化疗为主。当前,肺癌分型主要依靠人工诊断,导致效率低,精度差。本文使用病人的CT和PET图像作为数据集,利用深度学习方法训练模型完成对肺癌类型的自动划分。论文中使用Res Net50作为特征提取网络,分别实现只使用CT图像或PET图像以及共同使用CT和PET图像作为输入进行分类,观
在人们对太空领域进行探索与利用的同时,空间技术迎来了长远的发展,出现了新的空间技术需求,例如空间站的维修、卫星回收、释放以及维护等。此外,在经历了近一个世纪频繁的太空活动之后,空间中充斥着很多太空垃圾,它们对未来的航空航天存在很大的威胁。另外,航天器所使用的宇航级CPU工作环境恶劣,面临宇宙辐射以及超过300摄氏度的温差的挑战,故宇航级CPU发展缓慢,现今国内外使用的宇航级CPU计算能力普遍低下,
舆情是社会民意的集中反映。网络舆情来源广泛,传播速度快,且海量多样。为了帮助政府机构、社会媒体能够在海量舆情文本中更有效率的掌握舆情发展动向,需要根据蕴含的信息对舆情文本进行准确的划分。相较于有监督方法,无监督的聚类算法不需要大量标注的数据,能在低人力成本的条件下得到相对理想的性能,是舆情划分的有效方法。近些年,融合表示学习和聚类目标的深度聚类算法得到了广泛关注并取得了出色的性能。现有的深度聚类算
随着大数据的流行,越来越多的分布式计算框架(比如Hadoop、Spark等)被应用到实际的大数据应用中。为了解决大数据平台下的数据管理核心问题,将传统数据管理系统中的核心查询操作扩展到大数据平台是非常有必要的。现有Spark内置的查询操作是针对Spark SQL的内置数据类型设计且实现的算法并不全面;另一方面,针对Spark平台面向数据管理核心查询操作的综合评测工作并不多且难以满足特定环境下的评测
导弹作为现代战争中的重要远程打击手段以及战略威胁武器的载体之一,是我国国防力量构成中的重要组成部分。导弹装填是导弹生产制造过程中的重要环节,其任务是将导弹装配到弹筒中。如何精确地将弹筒与导弹轨道架对接是一个关键问题。目前国内的导弹装填工作主要还是通过手工方式对简单的工装机构进行调整,由人推动架车进行最终的对接。这对工人的技术水平有着极高的要求,特别对于大型导弹的装填,时间消耗很长。随着计算机视觉技
日常生活中的信息多以文档的形式呈现,挖掘文档中实体对之间的关系更具有实际意义。但是现有的关系抽取方法大多是句子级别的,难以捕捉文本中相隔较远的实体对之间的关系,为了弥补这一点,文档级关系抽取技术应运而生。本文拟从以下三个方面对文档级关系抽取技术展开研究:(1)基于序列的文档级关系抽取方法研究。基于序列的文档级关系抽取方法可以看作是句子级关系抽取方法的延伸,本文在该部分探究了两种具体模型,分别是利用
有效地对网络中海量的文本信息加以利用,方便人们的生活,一直是自然语言处理领域重要的研究内容。作为文本信息结构化的第一步,实体识别的结果直接影响下游任务的效果,这也使其不断迎来各种挑战。其中,细粒度的实体识别旨在不同上下文语境中对实体进行更准确、更丰富的描述,这一点在实体类别数量和类别层次上提出了更高的要求,逐渐成为目前实体识别领域中的研究热点。同时由于人工标注的代价高昂,现有的数据集大多基于远程监
人类学习知识往往遵循由简单到复杂,由基础到尖端的“先修”顺序。错误的学习顺序不仅会加大学习难度,而且容易因为不理解学科概念,“望文生义”,误入歧途。然而这样正确高效学习的顺序往往很难获得,需要领域专家在完成相关方向的探索后进行手工标注。这意味着得到一门学科的“先修”顺序,不仅需要大量的专家投入时间精力,而且往往在时效上难以辅助对前沿研究方向的探索。本文以从学科相关文本中自动化抽取先修关系为切入点,
学位