论文部分内容阅读
随着互联网应用的高速发展和云计算的兴起,数据的生产速度越来越快,数据中心内每秒钟都有大量较小文件的生成、分析和返回。海量数据的处理和应用已成为当今信息技术领域所面临的巨大难题。关系型数据库在处理大规模数据的存储和并发访问时极为吃力,在效率方面已经不能满足日益发展的需求。NoSQL数据库的出现,弥补了关系型数据库在高并发请求、扩展性等方面的不足,能极大的节省开发成本和维护成本,并且在处理海量数据存储上更有优势。Hadoop作为一个对大量数据进行分布式处理的软件框架,提供可靠、高效、可伸缩的数据处理方式,是云计算技术中最热门的话题之一。HBase运行于Hadoop之上,使用Hadoop文件系统作为其底层的存储平台,是一个高可靠性,高性能,面向列且伸缩性强的分布式存储系统。HBase使用Hadoop文件系统(HDFS)的分布式处理模式,利用Hadoop MapReduce来处理HBase中的海量数据,为海量数据的实时读写提供了一套解决方案。本文在NoSQL数据库HBase的基础上,设计并实现一个能够满足海量数据存储,并具有实时查询功能的适用于海量小文件的管理系统。在保持原HBase系统的可扩展性、可用性、容错性等特性的基础上,增加了二级索引功能,实现数据的高效查询,并提供基本的系统管理功能。本文首先从现阶段形势出发,分析了当前情况下的相关研究背景,对HBase相关知识的概念及其技术体系结构、数据模型、协处理器框架等进行了详细的研究和介绍。在此基础上,认真分析了系统的需求,完成了系统功能划分。论文重点阐述了服务请求处理了系统、数据存储子系统和大系统管理子系统的设计模型及其内部的业务流程实现。最后介绍了系统的测试情况,对整个论文以及作者在研究生期间的学习和工作经历进行了总结,并对基于HBase的海量小文件管理系统的未来发展进行了展望。