论文部分内容阅读
在业务需求不断增加的情况下,任务和数据密集型网络应用系统面临数据量迅速膨胀、数据形态不断扩张、用户种类不断增多的现状。根据数据操作特性对数据进行合理分割,并用合理的存储模式进行分布存储,对优化配置系统资源和提高系统运行性能具有重要作用。 Hbase是基于Hadoop HDFS的无模式列存数据库,以字节流形式存储不同形态的数据,可以依托廉价的服务器大规模扩展存储,可以借助MapReduce实现大规模数据的高效处理。本文分析了行键、列族、后台工作机制、负载分布等影响 Hbase整体性能的关键因素,通过研究任务和数据密集型网络应用系统中的数据操作特性,根据业务需求和功能要求制定数据分类分割策略。 本文以具体应用系统为依托,通过分析系统中原有数据存储模式随着业务量的扩展可能遇到的性能瓶颈问题,根据系统关键业务的数据操作特性,设计了以 Hbase为基础的结构化数据和非结构化数据分布式数据存储方案,通过对不同数据量下的基本性能的测试及使用 YCSB对Hbase在不同场景的数据读写性能的测试,分析了所提出的数据存储模式在该系统中应用的可行性及方法,为规划任务和数据密集型网络应用系统的存储策略和存储模式提供参考。