基于HBase的高效数据存取平台的设计与实现

来源 :北京邮电大学 | 被引量 : 7次 | 上传用户:zyy_2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Web2.0时代的蓬勃发展和移动互联网的广泛普及,互联网上数据呈现爆炸增长的趋势。伴随着数据的量级越来越大,数据的存储成为了很多业务首先需要解决的问题。分布式数据库因为其优秀的水平扩展能力,相比于传统的关系型数据库更加适合海量数据存储的业务场景。HBase是Apache开源的分布式列式存储数据库,适合海量数据的存储和高性能的读写操作。但是HBase本身存在一些不足,其中最主要的是缺乏二级索引的支持,这使得HBase基于非行键列的查询只能使用过滤器配合全表扫描来实现,在大数据量的场景下性能较差。虽然已经有相关工作研究了 HBase的二级索引,但是大部分在功能上不够完善或者不兼容较新的HBase。此外,HBase默认创建表时只有单个HRegion,在高并发的读写下可能出现单点过热的问题。因此有必要深入研究并实现HBase的二级索引功能以及防止单点过热的方案。本文在对HBase存储结构、系统结构以及数据库二级索引结构深入研究的基础上,提出了针对HBase当前不足的优化方案。本文主要工作有:1、结合HBase的存储结构、关系型数据库二级索引结构和索引查询的最左前缀匹配原则,提出了索引列聚集的二级索引结构,通过将索引列值聚集在对应索引表的行键上来实现二级索引的功能。此外,提出的二级索引结构支持联合索引并且处理能处理索引列值为空的特殊情况。2、提出了联合索引与多条件查询场景下的最优索引命中计算算法,并通过最优索引命中的结果加快了数据的剪枝,减小了网络1O的开销。在此基础上平台支持基于二级索引的查询、条件更新、条件删除操作。3、结合HBase存储结构,提出了基于行键类型的表预拆分算法。系统在创建表时根据表的行键类型将表拆分成多个子HRegion,并分布在不同集群节点上,避免单点过热情况的发生。最后,本文通过构建测试,与原生的HBase进行性能比较。结果表明新的系统通过二级索引功能大大提高了数据查询、更新、删除的效率,通过预拆分算法避免了单点过热的问题,从整体上提高了 HBase数据存取的性能。
其他文献
2008年9月,美国金融危机的爆发对世界经济构成了严重威胁,也对始于1975年以七国集团(G7)为核心的国际金融治理模式提出了严峻挑战。由于传统国际金融治理机制的失灵,已经运转
城市道路交通的顺畅越来越受到政府部门的重视,智能化交通管理设施设置成为解决道路拥堵提高道路使用效率的重要措施,高效的设置道路交通设施就需要制定相关的技术标准。本文
为了研究航空发动机涡轮缘板阻尼块的摩擦接触特性,减小涡轮叶片的振动,采用带圆角的平板接触理论模型进行数值模拟,推导接触面正压力及切向力的分布,研究接触模型的几何参数
虫媒病毒是指通过吸血节肢动物叮咬敏感的脊椎动物而传播疾病的一类病毒,目前国际上已经发现500余种虫媒病毒,其中有100多种与人畜疾病关系密切,感染后可表现为发热、出疹、
爱德华·斯诺登,这位美国中央情报局前雇员,目前是全球关注的人物。正是他的出走,导致美国“棱镜”等秘密情报监视项目为世人所知。那么,在美国历史上,这样的人物又有多少,他们又怎
报纸
为适应日益复杂的石油钻采作业的需求,钻采工具正向着性能完善、结构复杂、施工高效的方向发展,并对工具研制中的试验装置和试验手段提出更高的要求。胜利油田封隔器的密封与
利用系统科学的方法,从整体上提出了电子政务的经济效益模型;初步分析了电子政务对经济效益影响的几种方式和内容,从直接影响和间接影响方面做了相关分析。认为间接影响至少
字母词虽然不是现代汉语词汇的核心部分,但作为信息化时代的文字符号和现代汉语词汇的新成员,一直是学术界关注的热点问题之一,权威工具书《现代汉语词典》和《辞海》作为学
目的我国是全球糖尿病患者数量最多的国家,特别是老年2型糖尿病(diabetes mellitus type 2,T2DM),仅采用二甲双胍单药治疗难以维持血糖控制。本研究采用二甲双胍联合格列吡嗪