HDFS的副本放置与缓存优化研究

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:xjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的高速发展及互联网应用的快速增加,使得网络上数据量呈爆炸式增长,大规模数据存储、访问随之成为大数据领域的研究热点。当前,Hadoop分布式文件系统HDFS因高效、稳定的存储能力在大数据领域中被广泛应用。然而,HDFS仍有很多不足之处,需要不断进行改进和完善。首先,HDFS设计时并没有考虑数据节点上磁盘存储异构性,其底层存储只支持单一存储介质,导致HDFS集群不能很好的利用RAM盘(Random-Access Memory Disk)、固态硬盘(Solid State Drives,SSD)等高效存储设备来提高系统的I/O性能和吞吐量。其次,HDFS不能区分热数据,导致存放热数据的节点成为集群性能的一个瓶颈。最后,当HDFS集群存在海量小文件,并且这些小文件中存在大量热数据时,HDFS没有一个很好的缓存策略解决小文件缓存问题,这导致访问小文件时需不断的与硬盘交互,大大降低了客户端频繁访问小文件的效率。为了缓解上述问题,本文研究了HDFS文件副本放置和缓存机制,并进行了针对性的改进。本文主要工作如下:(1)针对HDFS不能高效利用RAM盘和SSD的问题,本文根据数据节点存储异构性,提出了基于热度感知的混合HDFS副本自适应移动策略(HPAMP)。HPAMP在文件副本初始放置时,基于文件大小将副本放置在高效的存储设备(RAM盘、SSD)中;在集群闲暇时,HPAMP采用灰度预测算法预测文件热度,将机械硬盘(Hard Disk Drive,HDD)中热的文件副本移动到RAM盘或SSD中,将RAM盘或SSD中冷的文件副本移动到HDD中。此外,HPAMP中文件副本的移动数量能够根据RAM盘或SSD空间利用率自适应进行调整。实验结果显示,在TeraGen基准测试,HDFS默认策略(DP)、轮询选择策略(RRP)、Tier意识策略(TAP)的运行时间分别是HPAMP的3.4倍,1.89倍和1.68倍;在Sort基准测试中,HPAMP相对DP、RRP和TAP在运行时间上分别能减少46.2%、29.2%和21.3%。(2)针对HDFS海量小文件中存在着大量的热数据,且频繁访问这些热数据效率低下的问题,本文提出了基于ARC替换算法的HDFS小文件缓存管理方法。该方法考虑将这类热文件进行缓存处理,对于缓存替换算法,本文实现了基于Java语言的ARC(Adjustable Replacement Cache)缓存替换算法。ARC算法能准确预测出将会被频繁访问的小文件并将其加入到缓存中,并且通过ARC算法可以动态置换缓存中的数据。缓存管理的实现极大降低了HDFS中热点小文件频繁访问磁盘的次数,提高了集群的访问效率。实验结果显示,与先进先出(FIFO)、最近最少使用(LRU)和最近最不经常使用(LFU)算法相比:在缓存命中率方面,ARC算法最高;在数据访问效率方面,ARC在访问时间上分别降低14.2%、6.1%和3.0%。
其他文献
存储墙问题是指处理器计算速度与访存速度不匹配的问题,渗透延迟容忍机制是近年来解决该问题的新思路。虽然目前的仿真实验已经初步证明了该机制的有效性,但是在现有的研究中还存在以下问题:一方面对渗透数据与片上缓存之间的关系认识不够全面;另一方面缺少维护渗透数据实时及时局部性的方法。这些问题导致渗透延迟容忍机制没有发挥出最大的作用。针对该问题,本文分析了渗透数据与渗透缓存之间的关系,研究了渗透数据在缓存中的
猪繁殖与呼吸综合征(Porcine reproductive and respiratory syndrome,PRRS)是由PRRS病毒(PRRSV)引起的一种严重危害养猪业的重要病毒性传染病,自上世纪80年代末在美国发现以来,
传统的机器学习算法不仅要求有大量的带标签训练数据,还要求训练数据和测试数据满足同分布。但是在实际应用中,常常缺乏与测试数据同分布的带标签的训练数据,因此如何运用其他领域中不同分布的带标签的训练数据,辅助目标任务的完成是亟需解决的问题。迁移学习是解决这一问题的一种有效方法。而在大多数迁移学习中都要求源领域与目标领域之间存在一定的相似度,在迁移学习框架中利用相似度学习可以提高迁移的效果。BP神经网络算
目的为了了解KSHV在新疆石河子地区的正常人群中的血清感染率,开展了KSHV在新疆死石河子地区的普通人群血清感染情况的研究。并且初步分析了KSHV感染的危险因素,为继续开展有
背景:全关节置换术(Total joint arthroplasty,TJA)是晚期关节畸形或退变患者常规的治疗方式,能够有效缓解病人症状,提高生活质量,但也存在相应的手术并发症,常导致大量失血,
在人工智能上升到国家战略的今天,数据作为推动人工智能智能化发展的重要因素,对人工智能的发展起着重要作用,人们日常生活中面临的很多问题都可以简单的转化为数据分类问题,
五年的政治动荡明显降低了经济增长,以及造成了南苏丹一系列的金融摩擦和普遍恐慌。自从战争于2013年12月15日爆发以来,南苏丹作为一个国家在经济和财政上已经陷入瘫痪,国家发展项目也随之停滞。这种对比对如何将稀缺资源分配给经济部门的功能和进步产生了普遍影响。这种情况造成了一些突出的挑战,如通货膨胀,严重的失业和城市的橡胶化。经济部门的稀缺资源分配和当地货币的大规模贬值仍然是最重要的和可识别的。本文研
在当今社会,云计算已经在个个方面严重影响了我们的生活和商业模式。这无疑是许多公司战略方向之一,也是企业最主要的内容之一。现在许多企业不选择购买可以自己管理的IT设备
随着经济全球化和物联网产业的不断发展,企业对供应链管理的要求不断提高。RFID技术作为物联网领域的核心技术,被誉为21世纪知识经济的关键技术之一,在供应链领域得到了广泛
背景与目的自身免疫性脑炎(autoimmune encephalitis,AE)是指由于血清和/或脑脊液存在针对自身抗原的阳性抗体,进而对中枢神经系统产生异常免疫反应的一类脑炎综合征。通常急