【摘 要】
:
随着5G、物联网等技术的飞速发展,计算机需要处理、存储的数据量呈爆炸式地增长,传统数据库已经无法存储这些海量数据,单台计算机也无法满足用户对大数据计算的响应时间需求。为了解决这些问题,人们开发出众多的分布式系统。Hadoop分布式平台作为最知名的分布式系统之一,一直被企业、学校等广泛使用。MapReduce为Hadoop的核心分布式计算框架,影响其作业性能的因素有很多,作业的数据本地性是其中一个关
论文部分内容阅读
随着5G、物联网等技术的飞速发展,计算机需要处理、存储的数据量呈爆炸式地增长,传统数据库已经无法存储这些海量数据,单台计算机也无法满足用户对大数据计算的响应时间需求。为了解决这些问题,人们开发出众多的分布式系统。Hadoop分布式平台作为最知名的分布式系统之一,一直被企业、学校等广泛使用。MapReduce为Hadoop的核心分布式计算框架,影响其作业性能的因素有很多,作业的数据本地性是其中一个关键因素,如何优化作业的数据本地性来提高MapReduce作业性能变得非常重要。本文分析MapReduce作业的数据本地性对其性能的影响,指出Hadoop的MapReduce任务调度以及HDFS副本管理在优化数据本地性方面存在的不足,提出从任务调度和副本管理进行数据本地性优化。本文的研究内容主要包括以下几个方面:(1)通过理论证明优化MapReduce作业的数据本地性可以提高作业性能以及节省集群网络资源,分析任务调度和副本管理与作业数据本地性的关系。(2)提出了结合Container预测的多任务数据本地性调度算法,算法将多个Map任务与Container构建为二部图,根据二部图最大权值求出Map任务与Container的最佳调度策略。为了解决作业被分配的资源有限、Container数量过少会导致二部图最大权匹配优化效果较差的问题,算法预测即将完成任务的Container并将其加入任务调度的过程中,提高了后续任务的数据本地性。该算法减少了Map任务的输入数据传输时间,提高了MapReduce作业性能以及节省了集群网络资源。(3)提出了基于作业数据本地性的动态副本管理策略,通过分析MapReduce作业的数据本地性变化,为不同时间段的数据赋予不同权重来预测文件的热度,然后根据文件热度动态增加文件副本,优化MapReduce作业的数据本地性。同时算法判断文件热度是否下降,将冗余的文件副本回收,节省了HDFS的存储资源。(4)本文搭建真实的Hadoop集群并将算法部署至集群中,分别对任务调度算法和副本管理算法以及将两者组合的数据本地性优化算法进行实验,实验结果表明本文提出的数据本地性优化算法与Hadoop默认算法相比,作业平均执行时间减少了12.4%。
其他文献
学习投入是影响学生学习成就的重要因素,相关研究表明学习投入受一系列环境因素以及个体心理因素影响。但在个体心理层面,情感因素对学习投入的影响仅在近几年开始受到国内外学者关注。另一方面,随着二语习得研究“情感”转向的深入发展,国内外有学者开始尝试在“控制价值理论”之下探讨外语学习情境下不同学业情绪的产生原因,及其可能对外语学习产生的重要作用。为了提高我国大学生英语学习投入,本研究从学业情绪的“控制价值
在昆明的校园、街头、小店能够偶遇到越来越多的外国留学生,其中大部分来自南亚东南亚国家。不同的社会文化背景下,留学生在昆明学习和生活碰到了哪些障碍?他们在多大程度上能实现来华留学的目的?留学生在求学过程中形成了什么样的跨国社会关系网络?社会关系网络是否促进了互利共赢、文化交流与互鉴的主张?由此,针对以上问题笔者选择云南大学、昆明学院、云南省交通技师学院等昆明几所高校的部分孟加拉国留学生进行个案研究,
随着现在移动互联网的飞速发展,各种各样的无线设备越来越多。在这种环境下,对于无线网络的安全要求越来越高。但是攻击者往往能够通过多种攻击手段伪装成合法节点接入无线网络中,然后破坏、窃听和控制无线网络。为了能够更好地防御这些攻击,需要更加可靠的设备认证技术来识别接入网络中的设备的身份。已有的研究表明,从设备的软件层面或者硬件层面可以提取各种独特的设备指纹。软件指纹不稳定,会随着计算机的配置变化而改变;
K-均值聚类算法作为数据挖掘中最常用、最强大的聚类算法之一,广泛应用于数据库、人工智能、统计学和生物学等各个领域。通常聚类所需要的原始数据分布在不同的组织或机构中,数据拥有者希望通过与他人合作来进行全局数据挖掘,获得更准确的聚类结果。然而,作为大数据时代的核心资产,数据不能轻易的被分享出去,因此,出现了一个难题:数据提供者担心数据泄露,不愿也不能公开自己的数据;相反,数据需求者需要准确的、大量的数
信息为人类物质文明建设奠定了基础,存储器作为保存信息的媒介,在生活中发挥着越来越重要的作用。相变存储器作为其中的佼佼者,有着非易失性、擦写速度快、循环能力强等优点,在存储领域拥有巨大的潜力。成核主导结晶的相变材料SET速度较慢,Sb2Te3作为生长主导结晶的相变材料,SET速度较快,但晶化温度低,非晶稳定性较差。本文提出一种稳定二元化合物TiTe2掺杂Sb2Te3相变存储单元,在不牺牲SET速度的
在当今大数据环境中,每个人都会留下“数据足迹”。一些用于临床研究以及二次分析利用的医疗数据包含众多个人隐私,一旦被泄露或滥用,将带来很大的安全问题,因此医疗数据的安全保变得尤为重要。区块链的匿名性、不可篡改性以及可追溯性非常适用于医疗数据的“事前记录、事中跟踪、事后问责”保护机制,所以已经逐步深入到医疗场景中,但是基于区块链的医疗数据安全保护仍是研究重点。大数据时代,医疗数据共享已然成为一种趋势。
产教融合是以人才发展需求、产业发展需求和科技创新需求为导向,以实现技术创新、科技成果转化、高端人才培养、知识培育与演化等为目标,产学研三位一体的融合发展形态。在高校的产教融合发展模式中,产教融合的深度及向量特征决定了人才链与产业链、创新链衔接的方向及可持续性。目前,我国政界对产教融合政策的制定、倡导与实施还停留在从西方国家移植、借鉴的层面,缺乏对产教融合理论及实践体系的整体性认知。本文以武汉市学术
我国经济社会高效快速发展,而汉语国际教育事业借此东风也呈隆盛态势。但连年的疫情影响,又对该学科建设产生一定窒碍,尤其以发展较为落后、信息相对闭塞、开放程度受限的内陆地区影响更大。湖北作为内陆地区,在汉语国际教育专业发展方面,仍然存在学科建设滞后、教育资源匮乏、宣传力度不够和管理服务不足等问题,致使近年该专业发展状况略显颓势;同时,作为一个教育大省,为积极应对疫情等其他不利因素冲击,切实契合中国开放
实际生活和工业生产中的许多问题都可以被归纳为动态多目标优化问题。受各种环境的影响,这些问题的目标函数往往相互冲突,且通常情况下都包含时间相关的变量。求解这类问题要求算法不仅能对多个目标同时优化,而且还能够快速追踪环境变化后的最优解。目前设计的动态多目标进化算法是在静态多目标进化算法的技术基础上增加响应机制,以此来加速寻优过程。预测作为变化响应机制的主流方法,从学习环境变化的规律开始,旨在生成靠近新
多丽丝·莱辛是英国当代著名女作家,曾获2007年诺贝尔文学奖。她的作品风格独特多变,涉及题材广泛,蕴含着对种族、性别和战争等诸多社会问题及人类命运的深刻思考,具有极强的前瞻性与社会时代关怀。《三四五区的联姻》(1980)是莱辛“太空小说五部曲”《南船座中的老人星:档案》中的第二部,主要讲述了三区、四区、五区几个不同的国家在神谕指引下通过曲折艰难的联姻,由封闭对立最后走向交流开放的故事。目前国内外对