论文部分内容阅读
随着移动互联网的迅速崛起,各种功能丰富的智能手机在中国已是遍地开花,使得用户接入互联网的方式和用户行为正在发生翻天覆地的变化;用户在使用电信业务的过程中产生的数据成倍地增长,各个行业也在不知不觉中经历着深刻的变革。传统的关系型数据库在存储能力和查询性能等方面无法满足对这些大数据的的处理,需要一种能承载并且能够高效处理大数据的平台。在此背景下产生了很多云计算平台,其中被大家广泛认可的分布式技术就是Hadoop。Hadoop是Apache下的一个分布式应用平台,在处理大数据方面,它能够可靠的存储海量数据且能高效的计算数据,同时做为集群存在具有很好的可伸缩性。Hadoop有两个核心的组件,分别是HDFS分布式文件系统和MapReduce并行计算框架。其中,HDFS是用来存储数据的,它是分布式集群中数据存储管理的基础,是基于流数据模式访问的,可以方便地处理超大文件。HBase是一个按列存储的分布式数据库。它适合于存储大数据,支持实时查询,只提供了单Rowkey的查询方式,可以使用MapReduce批量加载数据或运行分布式的全表扫描。目前越来越多的互联网、运营商等单位在Hadoop和HBase方面的研究投入了很大的人力和物力,并取得了很大的成果。本论文利用Hadoop的HDFS分布式文件系统和HBase的查询的特性,设计并实现一个存储管理和快速查询海量数据的应用程序。论文的主要工作如下:首先,研究与讨论了 Hadoop的相关技术,主要涉及到了 HDFS分布式文件系统,新旧版MapReduce架构,HBase分布式数据库;其次,设计并实现了基于web的HDFS文件浏览器,以方便用户管理HDFS中的文件;最后,将Solr全文搜索服务器与HBase结合,实现了 HBase的多条件查询。