论文部分内容阅读
随着因特网的迅猛发展,人类已进入信息高速发展时代。各式各样的互联网应用,都在经历爆炸式的发展,产生海量数据。从19世纪70年代开始,关系型数据库(RDBMS)几乎统治了数据管理场景。但是当业务不断扩大,存储和处理的数据量也不断增长,关系型数据库越来越难以扩展,在查询性能上也越来越差。在某些用户访问量频繁、并发性高的网络应用中,对承受巨大负荷的数据库层提出了更高的性能和扩展要求,传统的关系型数据库面对这一需求事越来越显得力不从心。NoSQL数据库凭借其良好的扩展性和处理大数据量时的高性能表现,已经走在了大数据存储系统改革的前沿,逐渐成为新的持久化存储备选方案。HBase是近年来商业化应用较多的NoSQL数据库,是一个能够提供实时、随机读写,能够存储数十亿行和数百万列的数据库。它设计是要运行于一个商业服务器的集群之上,当新服务器添加之后能够自动扩展,还能保证同样的性能。随着其被Facebook等知名互联网公司成功用于构建实时系统,已经成为了当前最热门的NoSQL数据库之一。本文即是以分布式数据库HBase为基础,针对实际应用中大数据量迁移转换需求,探讨了在海量数据背景下将数据库从关系型数据库向HBase迁移的方案。本文在研究了数据库基本理论和部分经典数据迁移方法及策略后,决定采用基于XML的中间件方案来设计开发该数据库迁移系统。本文主要工作包括:1)针对目前关系型数据库到HBase数据库迁移存在种种问题,提出了一种基于XML的一种有效的从关系型数据库到HBase数据迁移和数据模式转换方案。2)详细介绍了本数据库迁移中间件的设计与实现。3)应用于商品比价系统中,成功地将历史数据从RDBMS迁移到HBase中。