基于分布式存储系统的企业级大数据解决方案的研究与实现

被引量 : 0次 | 上传用户:robot2004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,在科学研究、计算机仿真、银行证券、医学统计等领域数据量呈现快速增长的趋势,企业随之为存储和分析这些数据所付出的时间和代价也越来越多。同时,企业面对的数据模型呈现出多样化,包括非结构化、半结构化的数据,对这些类型多样的数据进行管理和分析也是企业所面临的挑战。本文针对上述需求,参考了当前多种大数据相关技术,对目前部分拥有海量数据的企业的数据分析系统框架进行总结,通过分析其中的共性与特性,借鉴现有数据持久化方案和中间件思想,研究并实现了一种基于Hbase数据库的企业级大数据解决方案。针对Hbase数据库在数据存储接口支持上的不足,本文针对Hibernate OGM框架设计了面向Hbase的持久化驱动,也更好的保证了应用系统面向对象的特点。另外针对Hbase数据查询功能的不足,本文通过Hive与Hbase的整合,巧妙的将Hive QL语句应用到Hbase中。也使系统开发人员能够充分地利用系统中提供的资源。为了数据分析模块与企业业务模块更好的融合,设计了面向增量数据的数据同步工具,可以由企业用户自行设置需要同步的数据表和时间范围。本文最后通过一个医疗卫生信息平台的实际系统进行了测试,验证了本文提出架构的性能和有效性。通过解决上述几个问题,本文将Hbase数据库增添到企业系统的数据分析系统中。使企业在很小的成本投入下,就可以将Hbase完全的融入企业原有系统架构中,既不影响企业原有业务逻辑,又解决了企业面对大数据的挑战。大数据时代的来临,让各个经济、研究领域的企业都看到了数据的价值与魅力,对这些企业来说数据即是价值。大数据驱动的创新技术也必将融入新的企业应用系统架构中。但是现在相关技术都还处于起步阶段,也没有一套较为完整、通用的企业级大数据解决方案,不少企业却已经开始面临海量数据存储和分析的巨大挑战。针对以上问题,本文借鉴互联网公司和IT巨头公司提出的计算模型和解决方案,分析其中的不足与企业的实际需求,设计了一套基于Hbase的企业数据分析模块解决方案,充分发挥分布式数据库的存储效率和扩展性,利用Hibernate框架,构造了一套基于Hbase的数据存储方案和数据分析方案,从而统一了开发接口,降低了开发者的学习成本。并提供了一个增量数据同步的工具,从而融合了企业业务服务模块与企业数据分析模块的融合。因此较为通用的解决了企业面对海量数据的存储和分析的压力。
其他文献
宣传思想工作是关系党和国家全局的重大理论和实践问题,对于贯彻党执政理念,领导经济和社会发展的进程中具有重要的地位。宣传思想工作是中国共产党在长期革命实践中的经验总
滑坡灾害在自然界最为常见,他主要是由于自然因素和人类的工程活动引起的。滑坡灾害作用因素复杂、运动机理多变,其预测因此也比较困难。滑坡灾害一般会造成极大的人员伤亡和财
摘要:文章将主要分析地方性报纸媒体与社交媒体融合中的方法与路径,梳理我国地方性的报纸媒体在媒介融合中面临的困境,并为解决融合中出现的问题提出有益的应对之策。以天津口
3G、4G网络盛行下,智能手机的普及和移动互联网技术的进步促进了智能手机浏览器的成长。与手机APP应用程序相比,用户更倾向于使用手机浏览器进行访问社区论坛、新闻资讯、视频
随着三维图形技术和可视化技术的发展,数据的大小呈几何数目的增长,尽管单机的CPU处理能力越来越强,但与图像数据的规模增长速度相比仍有一定差距。单机上对大数据进行渲染越来
目的:应用实时三维超声心动图技术评价不同透析时间尿毒症患者的左心结构、功能及其收缩同步性的变化,并定量分析其变化趋势及与透析时间之间的关系。方法:选取我院血液净化中心
高层建筑是指十层及十层以上的居住建筑,包括首层设置商业服务网点的住宅,或建筑高度超过24m的公共建筑。高层建筑绝大部分楼层所在海拔高,消防援救时天梯高度不足,不能进行高效
目的:通过对肝癌患者家属疾病不确定感与生活质量的调查,了解肝癌患者家属疾病不确定感和生活质量现状,分析肝癌患者家属疾病不确定感的影响因素,探讨肝癌患者家属疾病不确定感和
在沿海地区或地下水位埋深较浅的地区,忽视地下水浮力而造成地下结构开裂、倾斜甚至破坏的事故时有发生。近年来,地下结构物的抗浮工作被逐步重视起来。很多专家学者从不同的角
随着信息技术的发展,以信息为核心的用户需求促进了文本数据挖掘前所未有的飞速发展。高效的分类、标志、组织相关信息的文本挖掘方法受到广泛关注,以频繁模式挖掘为基础的结构