论文部分内容阅读
随着大数据时代的到来,数据库中数据量急剧增长,同时数据访问量也逐渐增大,导致系统功能的响应时间越来越慢。在实际系统中,一些功能的响应时间随着数据规模的增大而变大,数据插入、检索的响应时间也越来越大。因此如何通过优化HBase的性能降低系统功能的响应时间成为该系统的一个重要问题,同时也是工业界以及学术界亟待解决的一个重要问题。针对上述提出的数据库性能优化问题,本文通过调研并总结与非关系型数据库性能优化相关的国内外研究现状,选择当前主流的分布式存储系统HBase作为研究对象,实现了一种HBase性能调优方法。在大量实验样本数据的基础上,采用随机森林算法分析HBase性能与参数之间的关系,从而构建HBase吞吐量和延迟预测模型。基于预测模型,提出改进的遗传算法对HBase性能进行优化,最终实现HBase性能调优方法。本文的研究内容主要包含以下几个方面:(1)特征筛选与训练样本生成。根据HBase官方文档中的描述,对HBase特征进行两次筛选,得到影响HBase性能的参数集合。接着进行训练样本的生成,采用正交试验设计方法来选择具有代表性的特征样本进行实验,获取吞吐量和延迟的实验值。(2)预测模型的构建。通过对比多种机器学习算法,选择随机森林算法训练样本数据,并根据HBase参数对预测模型的重要程度,基于随机森林模型再次进行特征选择,得到最终的预测模型。(3)基于预测模型的性能优化算法的设计与实现。根据吞吐量和延迟预测模型,设计适应度函数,改进交叉步骤,并使用基于切断的轮盘赌选择操作和自适应变异操作,从而实现了改进的遗传算法。采用改进的遗传算法对HBase的性能进行优化,获得了HBase性能的最优解以及相应的最优参数配置。通过实验验证预测模型和改进遗传算法的高效性和正确性。本文首先采用YCSB工具中典型的四种工作负载进行实验获取实验结果,并基于此实验采用随机森林算法和3种机器学习方法分别构建预测模型,利用150组测试样本对模型的误差率进行对比分析,验证本文给出的模型的准确性。采用本文提出的改进遗传算法与3种优化算法分别对HBase性能进行优化,比较其优化结果,验证优化算法的高效性。最终将本文提出的HBase性能调优方法应用在实际系统中,并对其优化前后的功能响应时间进行对比分析,给出优化后的HBase参数配置并分析其性能提高的具体原因,最终证明本文提出的HBase性能调优方法是高效的,并且能够优化实际系统的HBase性能。