论文部分内容阅读
海量小文件会对分布式存储系统的读写性能产生极大影响。在分布式存储系统中,针对小文件读写性能的优化工作主要采用聚合和缓存预取机制,但仍存在以下问题:(1)现有的小文件聚合机制没有充分考虑小文件负载序列的时序特征,造成聚合块内文件关联度较低;(2)固定的聚合块大小不能适应小文件大小范围多变的特点,导致小文件写性能下降;(3)现有缓存替换算法没有综合考虑文件访问时间、访问频率以及缓存价值,导致小文件读取时缓存命中率不高,降低小文件的读性能。
为解决上述问题,设计了一种基于时间序列预测的小文件存储性能优化方案(Small File Storage Performance Optimization Based on Time Series Prediction,TSP-SFSPO)。TSP-SFSPO包括负载分析预测模块,动态队列构建模块和存储模块。负载分析预测模块为了解决聚合块内文件关联度较低的问题,利用ARIMA-LSTM混合模型预测小文件负载序列中文件大小的变化趋势,并根据变化趋势将大、小文件分类,给出文件大小的范围;动态队列构建模块为了解决静态聚合块引起的写性能下降问题,利用层次分析法为不同范围的小文件设置不同的合并阈值;存储模块结合负载预测的结果和动态队列构建模块的合并阈值,实现基于时间序列预测的动态小文件聚合机制,同时为了解决文件聚合操作引起的小文件读取性能差的问题,基于LRU(Least Recently Used)实现了LRU_FW缓存替换算法,可以有效提高小文件读性能。
基于Ceph文件系统实现了TSP-SFSPO方案,实验结果表明,ARIMA-LSTM混合模型较ARIMA模型、LSTM模型能更准确的预测小文件负载序列的变化趋势;与原生Ceph系统以及SFPS方案对比,TSP-SFSPO方案的小文件写入时间分别减少了90.7%和13.1%,读取时间分别减少了75.2%和18.6%,内存占用分别减少了80%和15.7%。在面对海量小文件时,TSP-SFSPO方案可以显著提高Ceph系统的读写性能。
为解决上述问题,设计了一种基于时间序列预测的小文件存储性能优化方案(Small File Storage Performance Optimization Based on Time Series Prediction,TSP-SFSPO)。TSP-SFSPO包括负载分析预测模块,动态队列构建模块和存储模块。负载分析预测模块为了解决聚合块内文件关联度较低的问题,利用ARIMA-LSTM混合模型预测小文件负载序列中文件大小的变化趋势,并根据变化趋势将大、小文件分类,给出文件大小的范围;动态队列构建模块为了解决静态聚合块引起的写性能下降问题,利用层次分析法为不同范围的小文件设置不同的合并阈值;存储模块结合负载预测的结果和动态队列构建模块的合并阈值,实现基于时间序列预测的动态小文件聚合机制,同时为了解决文件聚合操作引起的小文件读取性能差的问题,基于LRU(Least Recently Used)实现了LRU_FW缓存替换算法,可以有效提高小文件读性能。
基于Ceph文件系统实现了TSP-SFSPO方案,实验结果表明,ARIMA-LSTM混合模型较ARIMA模型、LSTM模型能更准确的预测小文件负载序列的变化趋势;与原生Ceph系统以及SFPS方案对比,TSP-SFSPO方案的小文件写入时间分别减少了90.7%和13.1%,读取时间分别减少了75.2%和18.6%,内存占用分别减少了80%和15.7%。在面对海量小文件时,TSP-SFSPO方案可以显著提高Ceph系统的读写性能。