HDFS元数据管理的高可用性优化技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:woNO111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据存储设备的存储成本不断降低,数据存储已经不再是决定系统性能的主要因素,转而数据存储系统的可用性成为了当前评价系统性能的重要指标。本文从高可用性的角度出发,依托于当前流行的大数据平台Hadoop下部署的存储系统HDFS,研究其上元数据管理的高可用性优化技术,以此来提高当前HDFS HA方案的可用性。本文主要从HDFS元数据管理中节点故障时系统的可用性状态问题作为研究点,结合当前HDFS Federation与HA组织模式,分析了在当前模式下单元数据节点故障时系统处于非高可用性阶段,双节点故障时管理员冷启动新的节点所耗费的大量时间,以及集中式缓存未设置缓存替换策略的问题。基于上述三个问题,提出了本文的优化技术,优化技术的主要思想是结合了双机热备与双机互备两种冗余工作模式,将Federation模式下独立的命名空间两两组合,当某个命名空间下的节点发生故障后,可以将系统配置的另一个命名空间下的备份节点与当前故障切换后的活跃节点形成新的高可用性组合,同时也实现了当一个命名空间下的HA双节点均发生故障时,可由另一个命名空间下的备份节点接替成为故障命名空间下的活跃节点,实现了热备份启动新的节点。根据上述优化思想,本文在以下几种机制上进行了详细的设计实现,分别为基于QJM的共享存储机制优化,基于ZKFC的故障检测与切换技术优化以及数据块映射表动态维护技术优化。此外,根据元数据访问请求呈现出的集中性与突发性特征,本文设计了一个能提升系统高可用性的集中式元数据缓存替换策略,新策略选取数据流行度作为替换标准,利用神经网络预测模型、多元线性回归模型以及衰减函数模型结合形成的多个组合模型来周期性地预测数据流行度。最后,通过实验测试进行了优化技术的综合性能分析,根据得出的实验结果,优化技术能够实现节点故障后启动新的高可用性组合以及热备方式启动新节点的功能,同时也能确保数据完整一致性等性能要求。此外,通过SimpleScalar模拟器,验证了集中式缓存替换策略能够提高元数据的cache-hit-ratio。综上所述,本文提出的优化技术能够实现提高系统高可用性的设计要求。
其他文献
无线射频识别RFID,作为一种新兴识别技术,凭借自身特有的优势,已开始逐步取代条码,并在企业中扮演愈来愈重要的角色。随着RFID应用的逐步深入和推广,RFID应用开始由闭环应用
学位
近年来,人工智能在诸多领域的尝试及成功,使其逐渐进入大众的视线。如何实现机器与人类的无障碍交流,是人工智能一直的研究内容。智能问答系统是实现这一愿景的非常有意义的
操作系统是计算机科学的重要学科,研究操作系统对于理解计算机的工作原理和将计算机更好的应用于生产和生活都具有重要意义。然而,由于操作系统包含许多复杂而抽象的概念和算
互联网的飞速发展使得当前的网络环境发生了巨大变化:网络系统愈加复杂异构,网络环境多样性,服务质量更加难以控制,互联网薄弱的服务定制能力,以及对网络资源和用户的管理变得越来
随着多样化的用户需求,当前网络系统越来越复杂,致使网络整体性能及端到端系统性能得不到保障。受限于传统网络层次化结构的限制,当前网络元素不能感知其它网络元素的各种行
图像分割技术是图像识别、分析的基础,其主要应用领域包括智能移动机器人的场景理解、智能视频监控中的运动目标提取、基于内容的图像检索、基于内容的图像压缩等,本文首先对
IP_TASCM(IP Trace Analysis System based on Code Moving)数据平台是CERNET华东(北)地区网络中心,为了支持网络测量数据的整理和分析所开发的一个IP TRACE采集、分析和结果共享的
动态视觉敏感器闭环激励源是一种为动态视觉敏感器提供动态目标的视觉动态模拟器,为视觉位置姿态测量敏感器提供光学激励源,可以模拟视觉测量目标相对视觉敏感器在120米到0.9
路由协议是无线传感器网络的一个关键基础技术,由于节点能量得不到二次补充,因此,路由协议的首要目的就是节能。在大规模的数据收集网络中,节点以多跳的形式周期性地传输数据