基于HBase的海量小文件管理系统的设计与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:ylws09
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网应用的高速发展和云计算的兴起,数据的生产速度越来越快,数据中心内每秒钟都有大量较小文件的生成、分析和返回。海量数据的处理和应用已成为当今信息技术领域所面临的巨大难题。关系型数据库在处理大规模数据的存储和并发访问时极为吃力,在效率方面已经不能满足日益发展的需求。NoSQL数据库的出现,弥补了关系型数据库在高并发请求、扩展性等方面的不足,能极大的节省开发成本和维护成本,并且在处理海量数据存储上更有优势。Hadoop作为一个对大量数据进行分布式处理的软件框架,提供可靠、高效、可伸缩的数据处理方式,是云计算技术中最热门的话题之一。HBase运行于Hadoop之上,使用Hadoop文件系统作为其底层的存储平台,是一个高可靠性,高性能,面向列且伸缩性强的分布式存储系统。HBase使用Hadoop文件系统(HDFS)的分布式处理模式,利用Hadoop MapReduce来处理HBase中的海量数据,为海量数据的实时读写提供了一套解决方案。本文在NoSQL数据库HBase的基础上,设计并实现一个能够满足海量数据存储,并具有实时查询功能的适用于海量小文件的管理系统。在保持原HBase系统的可扩展性、可用性、容错性等特性的基础上,增加了二级索引功能,实现数据的高效查询,并提供基本的系统管理功能。本文首先从现阶段形势出发,分析了当前情况下的相关研究背景,对HBase相关知识的概念及其技术体系结构、数据模型、协处理器框架等进行了详细的研究和介绍。在此基础上,认真分析了系统的需求,完成了系统功能划分。论文重点阐述了服务请求处理了系统、数据存储子系统和大系统管理子系统的设计模型及其内部的业务流程实现。最后介绍了系统的测试情况,对整个论文以及作者在研究生期间的学习和工作经历进行了总结,并对基于HBase的海量小文件管理系统的未来发展进行了展望。
其他文献
上市公司的会计信息质量的高低不仅决定着证券市场的有效运行,而且对资本市场的运行效率产生直接影响。计量对于会计信息质量有着直接的影响,在金融、房地产及大数据高度发展
小组合作学习方式是新课改提倡的有效学习方式,对提高教学质量有重要帮助,在小学音乐教学中开展合作学习教学,需要教师进行科学划分小组,掌握小组合作学习的实施步骤和运用时
目的研究蜂胶醇提物对扑热息痛(Paracetamol,APAP)致小鼠急性肝损伤的保护作用并探讨其可能的作用机制。方法取C57BL/6MT(-/-)小鼠63只,随机分为9组,每组7只,各组于每天上午9点至10点称
介绍了聚乳酸纤维/棉纤维混纺织物的烧毛、退煮漂、丝光和定形工艺;采用中性固色活性染料/分散同浴染聚乳酸(PLA)/棉混纺织物,介绍了染料的选择、染色工艺处方及流程,并就染色操作中
采用ANOZOL^R L型活性染料在40℃条件下染色,并对该工艺进行了探讨。认为ANOZOL^R L型活性染料具有能耗低,对电解质(Na2SO4、NaCl)、碱剂、染色温度、染色时间、浴比和水质的不敏
采用酸性CellusoftTM L酶与中性纤维素酶分别处理竹原纤维针织物,研究酶用量、酶处理时间、处理温度及处理液pH值对织物减量率、顶破强力和透气率的影响,以优化酶处理工艺.确