分布式存储系统HBase性能调优方法的研究与实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:chasel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,数据库中数据量急剧增长,同时数据访问量也逐渐增大,导致系统功能的响应时间越来越慢。在实际系统中,一些功能的响应时间随着数据规模的增大而变大,数据插入、检索的响应时间也越来越大。因此如何通过优化HBase的性能降低系统功能的响应时间成为该系统的一个重要问题,同时也是工业界以及学术界亟待解决的一个重要问题。针对上述提出的数据库性能优化问题,本文通过调研并总结与非关系型数据库性能优化相关的国内外研究现状,选择当前主流的分布式存储系统HBase作为研究对象,实现了一种HBase性能调优方法。在大量实验样本数据的基础上,采用随机森林算法分析HBase性能与参数之间的关系,从而构建HBase吞吐量和延迟预测模型。基于预测模型,提出改进的遗传算法对HBase性能进行优化,最终实现HBase性能调优方法。本文的研究内容主要包含以下几个方面:(1)特征筛选与训练样本生成。根据HBase官方文档中的描述,对HBase特征进行两次筛选,得到影响HBase性能的参数集合。接着进行训练样本的生成,采用正交试验设计方法来选择具有代表性的特征样本进行实验,获取吞吐量和延迟的实验值。(2)预测模型的构建。通过对比多种机器学习算法,选择随机森林算法训练样本数据,并根据HBase参数对预测模型的重要程度,基于随机森林模型再次进行特征选择,得到最终的预测模型。(3)基于预测模型的性能优化算法的设计与实现。根据吞吐量和延迟预测模型,设计适应度函数,改进交叉步骤,并使用基于切断的轮盘赌选择操作和自适应变异操作,从而实现了改进的遗传算法。采用改进的遗传算法对HBase的性能进行优化,获得了HBase性能的最优解以及相应的最优参数配置。通过实验验证预测模型和改进遗传算法的高效性和正确性。本文首先采用YCSB工具中典型的四种工作负载进行实验获取实验结果,并基于此实验采用随机森林算法和3种机器学习方法分别构建预测模型,利用150组测试样本对模型的误差率进行对比分析,验证本文给出的模型的准确性。采用本文提出的改进遗传算法与3种优化算法分别对HBase性能进行优化,比较其优化结果,验证优化算法的高效性。最终将本文提出的HBase性能调优方法应用在实际系统中,并对其优化前后的功能响应时间进行对比分析,给出优化后的HBase参数配置并分析其性能提高的具体原因,最终证明本文提出的HBase性能调优方法是高效的,并且能够优化实际系统的HBase性能。
其他文献
近年来,建筑施工企业受到市场环境和行业内竞争的影响:建筑原材料价格不断上涨、劳动力的短缺,尤其是最低价中标等规则使得项目的利润大幅下降,导致企业资金特别是现金流短缺,引发企业市场经营陷入困难。面对现状,建筑施工企业必须要及时进行管理调整,以往建筑施工企业粗放式的经营方式正在悄然发生改变,整个行业都在“捂紧口袋,节约成本”,最大化成本管控成了紧要任务。论文在对相关理论进行综述的基础上,分析项目成本构
摘要 菊花是人们喜爱的名贵花卉之一,在果树幼年期的果园进行盆栽菊花,经济效益可观。介绍了果园盆栽菊花技术,主要包括繁殖、管理、投放市场等方面的内容,以供盆栽菊花者参考。  关键词 盆栽菊花;果园;培育技术    菊花又名黄花、秋菊等,系菊科多年生草本,花色有黄、白、粉色等10多种,花期在10~12月,是人们喜爱的名贵花卉之一。随着人们物质生活水平不断提高,爱花、养花成为人们陶冶情操的好习惯。菊花很
随着GPS全球定位系统在军事和民用领域越来越广泛的应用,它容易被干扰的问题显得日益严重。由于干扰的影响,GPS接收机性能变得不稳定甚至完全失效。为了使GPS接收机能在干扰
开放式实验教学是高等院校为体现以人为本的教学理念实行教学改革,将实验室面向学生开放的新型教学模式,对培养学生开拓意识、创新思维和动手能力具有重要意义。要充分发挥这
比较影像教学法融入了“大影像”的概念,能从多角度对疾病各影像进行比较分析。比较影像教学法的实施有利于激发学生学习核医学的兴趣,提高学生全面、综合、系统分析影像的能力
【摘要】校本教研的根本目的是为了促进学校的发展、促进教师的专业成长,体现在“改进学校的课程与教学,提升办学水平和教育质量,促进教师专业化发展和提高”等方面。  【关键词】网络教研 校本教研 教研模式  【课题成果】该文为甘肃省2016年度“十三五”教育科学规划课题《网络教研在学校教研活动中的有效模式研究》(立项批准号:GS[2016]GHB1163)阶段性成果。  【中图分类号】TN929.5 【