基于HBase分布式数据库海量数据序列存储优化

来源 :科学与财富 | 被引量 : 0次 | 上传用户：a570121851

【摘要】

：

【作者】

：

邓杰铭王榆心张柯汇王彦青宾茂梨

【出处】

：

科学与财富

【发表日期】

：

2021年4期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

　　摘要：针对海量数据分布式序列数据量大、增长速度快、序列重复性高等特点，结合HBase分布式数据库的相关理论和技术提出并实现了一套基于HBase的海量数据分布式序列存储方案。该方案设计了基于分布式数据分类码的预分区和行键优化策略，解决了服务器的均衡负载问题。通过构造文件索引替代二进制码序列实现了数据的高效存取。利用HBase协处理器实现了分布式序列记录单次提交多表插入的功能，提升了分布式多格式存储的效率。实验表明，通过上述方案设计的分布式序列存储系统具有良好的存储能力和扩展性。
　　关键词：HBase;分布式序列;分类码;文件索引;协处理器
　　0 引言
　　在海量数据存储方案中，以hadoop[1]分布式文件系统hdfs为基础的HBase数据库经过不断的发展完善得到了更加广泛的应用，特别以Facebook Message 系统对HBase 的应用为世界知名。HBase 本身作为谷歌公司Bigtable的开源实现，除了具有分布式、版本化、可扩展性的特征外，它与分布式计算框架如mapreduce 和spa-rk 等具有良好的结合性，这对于大数据量的科研工作非常便捷。本文以海量数据存储方式作为研究对象，结合当前分布式序列文件存储格式的特点，设计了基于HBase的分布式序列存储系统，利用基于数据分类码的预分区行键设计策略和协处理器机制对该系统进行优化，并通过实验验证该系统的可行性。
　　1 系统设计与实现
　　1.1 数据表设计
　　对HBase表进行设计时，列族数量不宜过多，因为HBase 表的列族对应于 HBase 物理存储结构 Store，当Store中的memstore达到flushing阀值时会触发所有列族的flushing操作，所以列族数量尽量控制在1到2个。根据 HBase 表设计相关原则，对GBFF格式和FASTA格式应分别建表，两表都只设置一个列族Column Family，在设计相应列名Column Qua-lifier时，特别针对GBFF格式文件第二部分特性FEA-TURES中包含多个子属性的结构，列名需将FEATURES作为前缀与子属性结合，如“FEATURES_source”这种形式，这样可以满足表中只存在一个列族的设计要求。
　　1.2 针对序列数据的预分区和行健优化策略
　　行键Rowkey 是HBase 数据表的主键，Rowkey[2] 的唯一性标示行记录的唯一性。由于HBase数据库只维护了主键Rowkey的索引，所以对Rowkey的设计直接影响数据的查询和整个集群的region分配，本系统设计方案中选取分布式序列记录检索号（ACCESSION）作为行键Rowkey的主要组成部分。在HBase中以检索号AC-CESSION作为行键Rowkey，由于Rowkey的排序默认字典序升序，虽然对于scan操作效率很高，但是同样易造成之前所述的局部热点问题，因此对于每一条分布式序列记录，提出一种结合预分区机制的行键生成策略。
　　（1）设预分区Region数为N，当前分布式序列所属分类码Division[3]下的分布式序列数据量占比为A i ，由此可得该分类码所需的region数D i =N·A i ;
　　（2）当前分布式序列检索号ACCESSION中的整数部分对D i 取模得到值S，将分类码与整数值S拼接得到字符串prefix。
　　（3）对字符串prefix 做MD5哈希生成16位字符串prefixMD5，将字符串 prefixMD5 前 7 位与检索号 AC-CESSION拼接为16位Rowkey。
　　上述操作完成后即生成所需行键Rowkey，例如检索号为AB000100的分布式序列，其所属分类码为BCT，取模值为1，对应的Rowkey为“74378dc_ AB000100”。
　　1.3 协处理器优化
　　本文利用HBase协处理器Coprocessor实现单次提交多表插入的功能来解决上述问题。HBase提供了一套完整的Coprocessor[4]开发接口，采用java语言封装，主要有三种可供实现的协处理器：Co-processor、RegionObserver 和 Endpoint。RegionObse-rver给出了HBase表相关操作的钩子函数。
　　2实验结果与分析
　　查询性能比较基于4台服务器共200个并发线程的环境下进行，从表中可以看出在大数据量查询时，优化方案性能优势非常明显.
　　3 结束语
　　本文针对海量数据分布式序列多年来快速增长导致的存储维护问题，以海量数据分布式序列为研究对象，对分布式序列数据的组成结构和当前主流的 GBFF 和FASTA序列文件存储格式进行研究分析，结合HBase数据库的存储模型和HBase分布式存储的相关特性，对分布式序列在HBase数据库中的存储进行多维度的优化。实验结果表明经过优化设计的分布式序列存储方案具有更好的存储和查询扫描性能，同时该方案可以把分布式序列数据与基于hadoop的大数据分析工具良好地耦合，使分布式序列的研究分析更加便捷，满足了当前云计算环境下对分布式序列数据高效存取的需求。未来的研究工作主要针对分布式序列数据的压缩优化和索引优化以及对序列数据的版本控制。
　　参考文献：
　　[1] 王铭，田茂，赵鑫，等.基于Hadoop平台的数据迁移方法研究实现[J].计算机测量与控制，2018，26（4）：225-230.
　　[2] 郑通，郭衛斌，范贵生.HDFS中海量小文件合并与预取优化方法的研究[J].计算机科学，2017，44（S2）：516-519，541.
　　[3] 樊路遥，张晶，陈小龙，等.开源大数据框架在海洋信息处理中的应用[J].科技导报，2017，35（20）：126-133.
　　[4] 周华平，刘光宗，张贝贝.基于索引偏移的MapReduce聚类负载均衡策略[J].计算机科学，2018，45（5）：303-309.
　　[5] 丁祥武，解书亮，李继云.基于Spark的并行ETL[J].计算机工程与设计，2017，38（9）：2580-2585.

其他文献

在线图书馆管理系统的设计与实现

摘要：随着数字信息技术的普及，一些先进的信息技术被应用于图书馆管理和服务。在线图书馆管理系统的目的是促进图书馆各部门之间的协调，提高图书馆的工作效率，并清楚地反映图书的存量和读者的借阅情况。图书馆管理系统的实现可以让用户自由的进行图书的借阅，让图书管理人员更加方便快捷的对图书馆内的信息进行管理从而提高了图书借阅的管理效率。　　关键词：信息技术;图书馆;管理系统　　1研究背景和意义　　1.1研究背

期刊

简述MOFs材料及其几种制备方法

摘要：本论文简要阐述了金属有机骨架材料（Metal-organic frameworks，MOFs）及其发展历程，介绍了几种典型的MOFs材料，总结了MOFs材料的几种不同的合成方法，同时也介绍了本课题组对于MOFs材料的一种绿色高效的合成路径。　　关键词：金属有机骨架材料;固相法;电化学法;溶剂热法　　1. MOFs简介　　金属有机骨架（Metal-organic frameworks）也就是

期刊

基于PLC智能清洁小车控制系统的设计

摘要：中大型企业随着自动化水平不断提高，厂房及生产面积不断扩大，清洁工作由清洁人员操作大型机器来完成。本文通过对PLC控制清洁车实现无人化操作，大大提升提高清洁的效率和质量。　　关键词：智能清洁小车;PLC;麦克纳姆轮　　1引言：　　随着科技和社会不断进步，许多大型自动化生产企业崛地而起。大型企业在发展的同时，而清洁问题伴随而来，由于清洁不当对企业发展造成了一定的影响，有时还带来了安全隐患。对于

期刊

浅谈地下水中石油类监测的质量控制

摘要：随着我国社会的不断发展和人们日常生活水平的不断提高，人们对环境的要去也变得越来越高。地下水中石油类监测和质量控制对于我国水体环境来说具有重要的意义，能够在检测进行的过程当中合理的掌握我国水体环境的变化情况，如果出现各种污染的话那么就能够及时的制定出相应的解决方案，从而对我国的地下水的水质起到一个更好的控制作用。因此本文将主要对地下水中石油类监测的质量控制展开相应论述，希望能够为我国的水资源

期刊

水稻种植技术及病虫害防治措施

摘要：随着我国农业机械化与现代化的不断发展，农业种植技术得到了进一步的发展，农作物实现了增产增收。水稻是我国粮食种植中的重要组成，水稻种植产量与质量直接关系到我国粮食安全，因此，必须深入分析研究水稻种植技术，做好水稻種植病虫害的防治，保证水稻种植业的可持续发展。本文主要研究水稻种植技术及病虫害防治措施。　　关键词：水稻种植;种植技术;病虫害防治;　　水稻属于我国重要农作物，种植历史悠久。水稻喜高

期刊

浅析BIM技术在建筑工程设计中的应用优势

摘要：本文首先整體阐述了BIM技术的基础概念、特征，并且进一步解析了建筑工程设计中运用BIM技术的优势。以期为建筑工程设计效率与品质的持续提升带来可参考的建议。　　关键词：BIM技术;建筑工程;设计　　建筑工程设计作为建筑项目建设运作的关键筹备环节，只有建筑工程项目设计真正意义上契合建筑工程施工运作的基础需求，才可以让有关的工作人员依照设计方案开展工程建设运作。从建筑工程设计的整体角度来解析，开

期刊

绿色设计理念在水利工程设计中的运用

摘要：时代发展过程中，相应促进了社会经济发展。我国逐渐加大了水利工程建设规模。所以，水利工程建设必须注重绿色设计，绿色设计属于生态设计，水利工程建设数量与规模大，牵扯到征迁移民问题，可能会影响区域环境，特别是水资源时空分配，对水环境影响较大。所以，设计人员在规划设计中，需要合理应用绿色设计理念，不仅不会对环境造成影响，还可以修复生态环境，实现水利工程的可持续发展。　　关键词：绿色设计理念;水利工

期刊

航空发动机机匣加工技术探讨

摘要：作为航空器心脏的关键组成部件，航空发动机机匣在制造业领域具备非常特殊的地位，本文讨论了优化航空发动机机匣加工技术的意义，指出了机匣加工工艺优化的目标，最后，分析比较了几种不同的航空发动机机匣加工工艺。　　关键词：航空;发动机;机匣;加工　　1.优化航空发动机机匣加工技术的意义　　飞机已经成为全世界普遍使用的交通工具和运输工具。在今年的新冠疫情期间，航空运输由于其高效的特点在全球范围内抗击

期刊

水利渠道衬砌工程施工技术

摘要：渠道衬砌工程是整个水利工程施工建设发展的重要内容，社会的进步发展给水利工程建设提供了更加有力的支持，也对水利工程施工技术提出了更高要求。工程实践中，要加强对水利渠道衬砌工程施工的重视，提高衬砌施工技术的施工质量。基于此，本文对水利渠道衬砌工程施工技术进行分析，希望能够为相关工作人员提供帮助。　　关键词：水利渠道;衬砌工程;施工技术　　引言：随着水利工程改革工作的不断深入，使得防渗渠道建设质

期刊

二次采油与三次采油的结合技术及其进展

摘要：当前阶段，国际的原油市场面临着供需失调、油价低迷的问题。在我国的石油开采工作中，也需要充分的认识到当前工作中所出现的各种问题，对其进行有效的解决。其中，“二三技术”的结合便是一项重点内容。从其应用效果来看，能够在一定程度上稳定的提升石油开采的工作效率和质量，从而帮助石油企业获得更高的经济效益。由此可见：研究二次采油与三次采油的结合技术及其进展具有积极的社会意义，希望本篇文章的发表能够对相关

期刊

基于HBase分布式数据库海量数据序列存储优化

与本文相关的学术论文