论文部分内容阅读
近年来,在科学研究、计算机仿真、银行证券、医学统计等领域数据量呈现快速增长的趋势,企业随之为存储和分析这些数据所付出的时间和代价也越来越多。同时,企业面对的数据模型呈现出多样化,包括非结构化、半结构化的数据,对这些类型多样的数据进行管理和分析也是企业所面临的挑战。本文针对上述需求,参考了当前多种大数据相关技术,对目前部分拥有海量数据的企业的数据分析系统框架进行总结,通过分析其中的共性与特性,借鉴现有数据持久化方案和中间件思想,研究并实现了一种基于Hbase数据库的企业级大数据解决方案。针对Hbase数据库在数据存储接口支持上的不足,本文针对Hibernate OGM框架设计了面向Hbase的持久化驱动,也更好的保证了应用系统面向对象的特点。另外针对Hbase数据查询功能的不足,本文通过Hive与Hbase的整合,巧妙的将Hive QL语句应用到Hbase中。也使系统开发人员能够充分地利用系统中提供的资源。为了数据分析模块与企业业务模块更好的融合,设计了面向增量数据的数据同步工具,可以由企业用户自行设置需要同步的数据表和时间范围。本文最后通过一个医疗卫生信息平台的实际系统进行了测试,验证了本文提出架构的性能和有效性。通过解决上述几个问题,本文将Hbase数据库增添到企业系统的数据分析系统中。使企业在很小的成本投入下,就可以将Hbase完全的融入企业原有系统架构中,既不影响企业原有业务逻辑,又解决了企业面对大数据的挑战。大数据时代的来临,让各个经济、研究领域的企业都看到了数据的价值与魅力,对这些企业来说数据即是价值。大数据驱动的创新技术也必将融入新的企业应用系统架构中。但是现在相关技术都还处于起步阶段,也没有一套较为完整、通用的企业级大数据解决方案,不少企业却已经开始面临海量数据存储和分析的巨大挑战。针对以上问题,本文借鉴互联网公司和IT巨头公司提出的计算模型和解决方案,分析其中的不足与企业的实际需求,设计了一套基于Hbase的企业数据分析模块解决方案,充分发挥分布式数据库的存储效率和扩展性,利用Hibernate框架,构造了一套基于Hbase的数据存储方案和数据分析方案,从而统一了开发接口,降低了开发者的学习成本。并提供了一个增量数据同步的工具,从而融合了企业业务服务模块与企业数据分析模块的融合。因此较为通用的解决了企业面对海量数据的存储和分析的压力。