基于MapReduce的相似性连接研究

被引量 : 0次 | 上传用户:aquabluesky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会网络、移动应用及在线服务等信息技术的广泛应用和不断发展,数据呈爆炸式增长,海量数据的分析需要强大的计算能力。相似性连接作为数据分析的一个基本操作,在相似搜索、数据挖掘上它可被用来大幅度地提高计算速度,提升计算效率。相似性连接类似于数据库连接,不同点在于,相似性连接是针对不同的数据类型,采用相应的度量函数以及阈值限定,通过函数度量后再做相应的连接操作。单台计算机的处理能力以及传统的技术架构已经很难满足海量数据处理的计算要求,但是MapReduce软件框架的出现为海量数据下的相似性连接带来了曙光。目前,MapReduce下相似性连接技术已经取得了较好的研究成果,但仍存在一些问题:处理速度仍不够快、处理数据类型较单一、不能有效处理动态数据等等。针对数据处理速度的问题,本文提出了改进的基于划分的算法和改进的基于前缀过滤的算法,可以提高相似性连接的计算效率。以下是本文的主要研究内容:1、采用分而治之的策略,借鉴QuickJoin算法,本文提出了改进的基于划分的算法(MRSJ_PDS算法),将海量数据分解为若干个规模较小的数据集,并分散至MapReduce分布式集群上,再进行相应的相似性连接操作。主要内容有:(1)进行数据的划分操作之前,对原始数据集进行采样,采用聚类算法计算出有效的聚类中心(亦即中枢),再根据有效中枢将原始数据集划分并形成分区(其大小未超过单个节点上能计算的块大小)。同时,为了有效并充分利用计算过程中产生的数据,避免对数据进行多次重复计算。本文采用索引技术存储中间数据,即为满足条件的分区建立K-D树索引,进而获取所有相似对。实验证明,该方法能够有效减少数据的划分次数,并有效地降低了相似对验证的频率,与之前的算法进行比较该算法的运行效率有明显的提升。(2)在现实世界中广泛存在着动态数据,可以将部分数据作为原数据集上新增数据,针对新增数据的相似性操作,本文设定了相应的分配原则,每个新增数据会进入到对应的分区,最终获取新增数据的相似对。2、在侦查近重复网页、屏蔽恶意广告、推荐相似用户等应用中,集合相似性连接技术被广泛使用。通常,集合相似性连接技术采用过滤-验证这样的计算框架,利用前缀过滤剪枝技术缩短候选集列表,但是在MapReduce平台下,这样的算法会产生大量的候选集,增加相似对的验证时间。本文提出了改进的基于前缀过滤的MapReduce相似性连接算法(MR_MinPrefix算法),利用最小前缀过滤技术对token索引列表进行更好的剪枝操作,降低候选集生成的代价,并保存记录的相关信息到指定文件中,便于后续到来数据的相似性连接。在新增数据相似性连接操作时,采用传播延迟策略,延迟更新全局token频数、索引列表等相关信息,最终获取所有相似对。
其他文献
本文根据袖元分析理论.探讨了水库水质的综合评价模型,井根据多次实测结果对黄前水库水质进行评价,评价结果表明利用物元模型评价结果与属性识别法和灰色关联度法评价结果基本一
《元刊杂剧三十种》和《元曲选》同为元杂剧刊本,但由于校勘年代差异,语言特点不尽相同。本文对两书中的反问句作了穷尽性调查,对比描写和分析了两书中反问句的各种类型;并从
目的:探讨气管切开术后患者应用三种不同的声门下吸引方法的效果。方法:选择重症监护室气管切开≥48h的患者90例,按气管切开机械通气时间顺序分为实验A组30例、实验B组30例、实
复合寻的制导是由多种模式导引方式参与不同阶段的制导,完成导弹寻的任务,既可以发回各单一模式的优点,又可以彼此取长补短,发挥性能的综合优势,是目前各军事强国重点发展的
重构(remodeling)由Baumbach等在1989年首次提出。高血压左室重构是心脏事件的重要独立危险因素,与心率失常,猝死,心力衰竭等密切相关。现已证明,在高血压情况下,心血管系统会
社区教育是国民教育体系的重要组成部分,发展社区教育是完善终身教育体系、建设学习型社会和促进人全面发展的迫切需要。现代信息技术的发展推动了社区教育的改革创新,加快了
聚硅烷具有类似于π电子共轭体系的σ电子共轭体系,其许多性质都是依靠主链Si原子的电负性和空的3d轨道。碳纳米管不但具有优良的导电性还具有较高的稳定性,π电子的离域使其表
目的通过系统回顾分析2007—2017年我国有关深静脉血栓形成风险评估相关文献研究的发展现状,为未来进一步研究提供理论参考和循证依据。方法制定系统的文献检索策略,全面检索
聚硅烷是一种主链由硅原子组成的高分子材料,依靠主链Si原子的电负性和空的3d轨道,形成了一个大的类似π电子共轭体系的σ电子共轭体系,赋予了聚硅烷独特的性质,从而使其成为极有
在化工生产过程中经常检测的变量有压力、流量、温度、物位四大变量,其中压力是其中之一,所以在生产过程中压力检测仪表的选用与安装就显得尤为重要。本文通过介绍压力检测仪表