Hadoop异构环境中数据副本动态管理研究

来源 :南京航空航天大学 | 被引量 : 5次 | 上传用户:ansonx
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
副本管理策略是云计算环境下分布式文件系统的重要研究方向之一。合理的副本因子以及副本放置策略不仅可以为用户提供更加可靠的数据访问服务,同时能够提高系统的负载均衡和云计算平台的计算效率。论文首先对Hadoop平台下的分布式文件系统HDFS进行了研究,详细介绍了HDFS的副本管理策略,分析了不同副本管理策略的优缺点,同时对HDFS数据块均衡策略进行了详细分析。其次,分析了HDFS默认数据块均衡策略的局限性,并在此基础上提出了适用于异构环境的数据块负载均衡算法,该算法基于各个节点的性能及存储空间等参数计算得出各节点的理论空间利用率,并将用户输入的阈值转化为各节点的参数化阈值,从而实现了在异构环境下对数据分布的负载均衡。论文修改了Hadoop源码并重新编译部署,搭建测试环境进行实验。实验结果表明该算法在异构环境下,能够让集群的数据分布达到更加均衡的状态,一定程度上提高了集群的整体性能。然后,论文对副本管理策略中的副本因子决策算法进行了研究。指出当前文件热度可能存在较大差异,对热点数据的访问将影响作业的执行效率。而现有副本因子调整策略基于当前热度,不仅具有滞后性,亦会受到突发访问波动的影响,因此副本因子决策应当以文件的未来热度为依据。基于此,建立了以灰色预测为基础的预测模型,并利用马尔科夫模型修正突发访问造成的预测偏差,然后基于文件的预测热度建立有限通道服务模型,决策出符合用户需求的副本因子。最后,对副本因子调整过程中新增副本的放置策略进行了优化研究。在副本因子动态调整过程中,目前多数副本放置算法优化目标单一,而传统多目标优化方法存在权值系数的选取依赖专家经验、优化结果受该系数影响较大、建模过程复杂等缺陷。在此研究基础上,论文提出了一个基于多目标优化的新增副本放置策略。首先建立网络流量、节点性能负载均衡度、存储空间均衡度等多个优化目标;然后引入多目标优化算法NSGA-II进行分析求解;最后提出一种基于解空间中个体密度的最优目标选择策略,从非支配解集中决策出最终副本放置方案。论文首先进行了仿真实验,仿真结果表明该算法具有较好的收敛性,验证了算法的有效性;然后在实际集群环境中修改了Hadoop源码,对本文提出的副本因子决策算法以及副本放置策略进行了实验分析。实验结果表明:改进后的算法可有效减少热点数据的访问冲突,提高系统的吞吐量,并有效减少副本移动过程中的网络负载,在整体性能上具有更好的优化效果。
其他文献
目前主流的全分布式非结构化P2P网络在构造拓扑时都没有考虑节点的自主行为特征,节点在拓扑上的地位是相同的,对等网络缺乏有效的机制保证网络的良性发展,这降低了节点获得服务
敏捷供应链和经济全球化的发展促使企业集成信息系统从组织内部扩展到组织之间。SOA通过建立模块化服务,来支持所在组织以及外部组织共同参与到一个跨组织的业务过程中,为企
随着信息网络技术的发展,用户对移动性的要求越来越高。移动IPv6协议的出现,使得单一接口的移动节点在IPv6子网间移动时可以保持其通信的连续性。与此同时,全球范围内存在多
在软件技术迅猛发展的今天,软件测试作为软件开发重要环节的同时,也成为了保证软件质量的重要手段。在面向对象软件的开发过程中,需要不断的测试和修改,在修改的过程容易引入
虚拟仪器就是利用数据采集设备加上数据分析软件来代替传统的测量仪器。以PC为平台的虚拟仪器系统长期以来充当着智能测试系统的平台,随着后PC时代的来临,业界对仪器的个性化
商业智能技术(Business Intelligence,BI)是当前信息处理技术中的一项热点课题,具有集成化数据管理、灵活的数据访问、强大的数据分析和可视化的报告等能力。BI主要应用了数
为了解决将对象持久化到关系数据库时所面临的问题,减少对象模型和关系模型之间的阻抗不匹配给应用系统设计开发所带来的消极影响,本论文分析了对象模型与关系模型相互映射的
工作流建模是当前工作流研究领域的热点问题之一。研究更具柔性和适应性的工作流建模方法,并探索模型对实际工作流系统开发的指导作用,使其更好地适应业务流程的动态变化,是
近年来随着因特网用户人数的增多,因特网通讯的体积迅速增长,这就要求越来越多的网络带宽。为适应因特网通讯,骨干网的容量已由WDM(波分复用)技术提高。基于WDM技术的波长路由
近年来,随着数据量的急剧增长,数据处理技术也同步获得非常巨大的发展。有别于过去传统的数据查询分析技术,借助于云计算技术的海量数据查询处理与分析技术有其本质特征。目