论文部分内容阅读
随着对大数据与人工智能等新型技术领域的研究,使得互联网企业的数据中心服务规模呈现激增的趋势。在当下的高速网络环境下,为网络数据存储和分析带来了新的问题。从数据存储方式角度出发,随着云网络的逐步普及化,使得关系型数据库在处理速率上无法与数据接收速率保持一致,导致程序在执行过程中出现数据丢失现象。从存储配置角度出发,大型数据存储运行前都需要进行大量参数配置,而且采用人工配置或默认配置会使得性能无法适应环境变化,导致数据库无法发挥正常存储水平。本文针对于DPDK(Data Plane Development Kit)环境下高速网络存储优化研究,主要做了以下三个方面的工作:首先,针对基于DPDK下内存数据库存储所存在的速率不一致问题,提出基于管道的多批次并行存储优化方法,在底层DPDK的支撑下实现高速网络数据的缓存操作。该方法实现通过利用接收端扩展技术与数据分发技术实现数据的预处理,将当下单队列单CPU执行转变为多队列多CPU运行。并且综合考虑数据存储过程中,数据接收和数据存储批次大小的差异问题,再将DPDK的突发接收与Redis的Pipeline结合,减少数据存储过程中处理量差异,提升网络数据存储性能。实验结果表明,基于管道的多批次并行处理方法能够有效提升对大规模数据的存储并且保证存储的I/O性能。其次,默认存储配置会引发资源利用的不均衡问题,通过分析DPDK下高速网络存储特征,提出一种基于渐进感知模型的参数配置优策略,该策略通过工作特性进行分层建立回归模型,并且通过利用梯度提升树算法来逐步生成存储系统的整体模型。在生成预测模型基础上,通过遗传算法进行迭代寻找出系统存储的最优配置方案。通过实验表明,该方法产生的系统模型能够有效感知系统性能,并且通过生成的配置方案有效提高存储吞吐量,与存储执行时间。最后,针对以上所提到的数据存储问题优化方案进行原型系统设计,将两者有效结合,在开源Zabbix的基础上进行模块设计,通过利用Web框架编写可视化存储性能分析与监控系统。并且对系统整体进行测试,结果表明基于管道的多批次并行存储方法保证数据实时存储;面向Redis的存储参数配置方法能保证存储配置的准确性,并且提升数据存储的效率。