关联性感知的Hadoop数据放置方法研究及实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:zhangshun102
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的迅速发展,为了有效处理出现在众多领域中的数据量的爆炸式增长问题,云计算相关技术有了长足的发展,并在相关领域发挥了重要的作用。在处理数据密集型应用的过程中,Hadoop分布式计算平台具有的可并行性、高可扩展性和成本低廉等多种优点。在处理大型输入文件的数据放置的过程中,HDFS存在两点不足有待改进:第一,当slot有限时,随机方法导致的关联数据块集中放置将影响集群的并发性;第二,当多输入文件执行join操作时,随机方法导致的关联数据块分散放置将增加结点间的数据传输。为了提高MapReduce的执行效率,本文针对上述问题提出了关联性感知的Hadoop数据放置方法。针对第一点不足,本文提出了基于数据块间作业访问关联性的动态数据放置算法(Job-ACDP算法)。根据历史数据访问记录所提供的相关信息,本文建立数据块间作业访问关联关系表示模型,然后根据所提出的放置算法将关联数据块分散放置在不同的节点中,并在此基础上根据输入文件访问频率动态变化的情况,提出聚类结果调整算法来解决这一问题,从而增加集群的并发性。针对第二点不足,本文提出了基于Join访问关联性的多输入文件数据放置算法(多文件Join-ACDP算法)。根据历史数据信息建立了数据块间Join访问关联关系表示模型,然后根据数据块间的Join访问关联性将关联数据块分成一组并给出数据放置数学模型,该模型能够指导数据块集中放置并保持节点负载均衡,最后根据本文所提出的放置算法将同组的关联数据块放置在同一组节点集,从而能够有效减少节点间数据传输量。最后,根据本文提出的两个问题及解决方案设计并实现了 MapReduce数据放置工具,并搭建了 Hadoop实验环境对本文提出的两个数据放置算法分别与Hadoop默认数据放置算法进行对比实验,验证了所提算法的有效性,实验结果表明本文提出的方法在有效处理海量数据的同时能够明显提高MapReduce执行效率。
其他文献
电气设备的良好运行状态是电网安全稳定运行的前提,目前大部分电气设备的故障与绝缘缺陷有关,关注电气设备的绝缘缺陷状态对于电力巡检人员十分必要。局部放电信号作为绝缘性能的表征反映设备内绝缘缺陷,不同特征的局部放电信息正是不同绝缘缺陷类型的表示,因此对局部放电数据分析就是对电气设备绝缘性能的评估。通过判断局部放电信号相应信息,电力人员可以进一步确定设备检修时间,避免盲目检修。而局部放电波形的去噪与类型识
利用Hypermesh和Ansys软件对某出口漏斗车进行结构强度分析,提出结构改进措施,并对车体疲劳寿命进行预测评估,然后对车体静强度仿真分析与试验结果进行对比分析,验证仿真与试验结果的一致性。根据车体结构的特点和受力情况,取1/4车体结构建立有限元模型,并根据AAR标准C-Ⅱ(M-1001)“货车设计制造规范”第4章“设计”规定的载荷工况,对该漏斗车车体初步方案进行静强度分析和屈曲稳定性分析。静
SiC陶瓷具有高硬度、低密度和优异的化学稳定性等特点而被广泛应用,然而,SiC陶瓷本身脆性大、减摩耐磨性差,限制了它在一些领域中的应用。向SiC陶瓷中引入延性金属和软陶瓷是提高其强韧性和减摩耐磨性能的有效方法。本文制备出一种低熔点的Al基合金,采用简便的熔渗法对SiC陶瓷进行增韧;研究了熔渗工艺对Ti_3Si(Al)C_2生成量的影响、Ti_3Si(Al)C_2含量对复合材料力学性能的影响以及Si
氮化硼纳米球(BNNSPs)具有良好的生物相容性、热稳定性、化学稳定性、导热性、润滑性能、吸附及净化环境功能等。BNNSPs广泛应用于生物医学、聚合物/陶瓷复合材料、催化及环保等领域。不同的应用领域对BNNSPs的显微结构、性能等有着不同的要求,故而获得对BNNSPs各方面参数有效的调控手段,在其应用中至关重要。本文通过化学气相沉积(CVD)法制备BNNSPs,并研究了其显微结构、尺寸、氧含量、孔
本文研究了具有变指数源项的拟线性波动方程解的爆破问题.介绍了关于具有变指数源项的拟线性波动方程的发展进程及部分研究成果.在已有成果的基础上,研究含强阻尼项及变指数
近年来,随着半导体技术的不断发展,研究人员提出并实现了大量新型半导体器件原型。这些半导体器件的工作原理与器件内部的量子特性有关。目前,外延生长技术的发展使得量子器
当下,我国交通建设设施正在不断发展与壮大,在隧道、轻轨、高铁的建设上尤为突出。总的来说,在公路隧道的修建上呈现出:越修越多、越修越难、越修越长、越修越深的状况。因此公路隧道的设计跟施工要更精益求精,为更好的解决修建公路隧道所要遇到的问题,对开挖隧道围岩的级别以及围岩稳定性的分析就尤为重要。本文以云南西山营隧道项目为依托,应用围岩质量分级修正[BQ]法对围岩进行分级,结合改进层次分析法和可拓学评价相
目的分析嗜铬细胞瘤/副神经节瘤(PPGL)的临床表现、诊断方法、术中血压及术后随访情况,探究PPGL诊断及治疗的影响因素,提高临床医师对PPGL的认识水平,降低该病漏诊率及死亡率。方法回顾性分析天津医科大学总医院病房自2015年1月至2019年12月病理诊断为PPGL的141例患者的病历资料,分析PPGL患者主要临床表现、相关生化及影像学检查、治疗方案和随访情况,对比小直径组与大直径组、典型症状组
随着以互联网为代表的信息网络和移动计算技术的发展,空间数据资源出现了爆炸式的增长和累积,如何利用云计算技术对这类数据进行高效的空间连接查询处理,已成为当前空间数据
郑天挺,中国近代著名史学家,史学成果卓著,尤以明清史研究蜚声中外,是孟森之后将该领域研究推进到新境界的代表人物。以往研究多关注郑氏的明清史研究。近年来,《郑天挺西南联大日记》、《郑天挺隋唐五代史讲义》、《郑天挺元史讲义》、《郑天挺明史讲义》等珍贵文献的出版,拓展了学界对郑天挺学术旨趣的认知,展现了郑氏在隋唐史、元史等领域的众多建树,由此为中国史学界系统认识郑天挺学术提供了新的空间。七七事变后,郑天