基于HDFS的分布式存储研究与实现

来源 :电子科技大学 | 被引量 : 16次 | 上传用户:caiwenta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化社会的快速发展,互联网中的数据急剧膨胀。大规模的数据生产就必然伴随着大规模的数据存储,但传统存储方式很难突破其存储限制,分布式存储系统应运而生。Hadoop是由Apache软件基金会开发的一个分布式计算框架,目前已广泛应用于各大互联网公司。Hadoop的核心是Map Reduce和HDFS,分别为数据提供计算和存储服务。HDFS是Hadoop的分布式文件系统,也是Google公司设计的GFS的一种开源实现,所以其基本结构与GFS一致,都属于主从模式。目前,由于Hadoop在云计算领域被越来越广泛地使用,以及HDFS本身优秀的存储能力,HDFS受到了广泛关注,许多公司和科研单位纷纷开展HDFS的研究工作。但是,HDFS仍有许多不完善的地方,它仍在不停地改进和更新。本文深入分析了HDFS的结构和运行机制,指出了其部分设计缺陷,针对HDFS的副本策略进行改进,主要工作如下:(1)HDFS默认的静态副本冗余策略并不能区分热点数据,导致存放这些数据的节点成为集群的一个瓶颈。针对这一问题,本文提出了一种基于数据热度的动态冗余策略。该策略统计并预测每个文件的访问情况,并且每个文件的统计周期随其访问频率的变化而变化,这样能快速反映出数据热度的趋势,及时增加或减少副本。使用该策略能加快系统响应速度,提高集群的吞吐量,减少作业时间。(2)HDFS没有考虑Data Node的异构性,如果性能差的节点存放了更多的数据,那么读取、处理数据时低性能节点需要承担更多的负载,闲置了高性能节点的处理能力,负载分配不均衡。针对这一问题,本文提出了一种基于节点性能评价和网络距离的放置策略。首先提供一个接口让用户自定义节点状态信息并配置其权重,然后使用改进的TOPSIS算法评价节点,最后综合网络距离选择节点放置副本。该策略允许用户自行设置关注点,并且在此基础上均衡各节点的负载,提高系统整体性能。(3)进行大量仿真和实验,并且基于改进的HDFS集群开发了C/S模型的云存储系统,用HDFS默认策略对比本文的改进策略,实验证明本文的改进策略能较好地提升集群性能。
其他文献
图像分类在计算机视觉研究领域中是一个热点问题,一直以来备受学者关注,尤其是近些年来,数字图像的规模呈现爆炸式增长态势,图像分类已成为许多领域的一项关键任务,因此其研
WLAN已经成为国内三大运营商的建网重点,运营商对WLAN网络的建设已经从初期的建设期发展为建设与运营并行考虑的时期,既要考虑如何在扩建、提速下有效维护、优化WLAN网络,实
离群点是指数据集中和常规数据对象的产生机制完全不同的,不符合数据的一般规律,偏离常规数据对象的数据点,但是它们又可能包含着我们容易忽略的非常重要的信息。如在信用卡
目前,很多监控应用会在固定位置设置一些捕获设备对运动实体进行追踪,从而产生大量时空轨迹数据。例如在交通管控系统中,安装在道路上的智能摄像头会自动拍摄并对过往车辆进行识
“大数据”已成为近年计算机信息技术行业关注的热点。如何利用现有技术挖掘出数据背后隐藏的丰富信息,进而创造更高的经济价值,是大数据发展的问题之一。可视化挖掘技术以图形
脑-机接口(Brain-computer interface, BCI)是一种不依赖外周神经和肌肉等传统信息通道的特殊人-机交互技术。利用该技术,可实现大脑与外部设备之间的直接通信和控制。作为神
近年来,随着宽带互联网的迅速发展以及网民数量不断攀升,互联网上的广告推送服务迎来了新的商机,已经得到了众多的门户网站、购物网站以及社交网站等的关注。在互联网广告推送服
随着5G时代的到来和物联网行业的快速发展以及人们安全和隐私保护意识的增强,安全和隐私保护变得越来越重要。近年来在云计算的基础上,雾计算、边缘计算等近端云计算模式发展迅
近年来,人机交互日趋成为国内外研究的热点之一。用户与虚拟系统的交互也成为人们探索的重点。人手作为人类交流的一种重要方式,自然而然成为科学家们的兴趣点之一。如何通过人
人脸识别在身份认证领域具有重要的研究价值和广阔的应用前景。本文以人脸识别身份认证系统为背景,以二代证图像和场景视频图像为研究对象,针对预处理和匹配方法进行了详细探