面向Ceph的重复数据删除策略研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:A123_1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的急速发展,人们迎来了大数据时代,数据类型更为复杂,体量更为庞大。大数据不仅为企业带来了多样化的商业价值,同时也为存储行业带来了巨大的挑战。因此,以分布式存储技术为核心的云存储,以效率高、收费低的优势占据存储市场。但无论是当前主流云存储系统,还是传统的数据存储系统,都无法避免存储大量冗余数据的情况,尤其在归档或备份系统中,冗余数据能占到存储总量的70%,冗余存储极大地提升了存储成本。通过删除重复数据,来提高存储空间的利用率,从而减少硬件成本与能耗十分必要。但传统重复数据删除应用于云存储时,存在两个关键性问题:一是如何在平衡重复数据删除率与系统资源利用率的同时,提高系统整体效率,二是如何有效减少重复数据删除对云存储系统的影响。基于上述问题,论文做了如下工作。1.现有重复数据删除系统过分追求重复数据删除率,导致系统效率低、开销大。针对该问题,提出基于数据相似聚类的重复数据删除机制。该机制利用数据的相似性进行聚类,并根据聚类结果,设计构建了二级索引结构。为了提升数据的检索和比对效率,根据数据间的关联性特征设计了缓存置换算法,进一步提高索引缓存命中率。与其他重复数据删除机制进行实验对比,结果表明所提出的机制在保证较高的重复数据删除率情况下,能够大幅提升系统效率。2.在Ceph分布式存储架构下,重复数据删除不仅会加剧原有OSD的负载不均问题,且会对Ceph的读写性能造成影响,针对该问题,对工作1的机制进一步优化,提出了OSD的负载再均衡策略,该策略综合考虑系统读写的性能来进行数据迁移,从而使得集群整体负载更加均衡,同时通过对重复数据删除读写流程优化,减少对Ceph读写效率的影响。与原生Ceph分布式存储系统的实验比较的结果表明,OSD负载再均衡策略能够有效解决重复数据删除带来的Ceph负载不平衡问题,并提高读写效率。研究工作表明,基于相似聚类的重复数据删除机制与OSD负载再平衡策略,不仅能够有效提高去重效率和空间利用率,而且能大大减少Ceph负载不平衡的情况,具有较好的实用意义。
其他文献
为提升物流配送效率,降低配送成本,提出一种改进麻雀搜索算法M-SSA求解物流配送中心选址问题。在基本麻雀搜索算法SSA中,设计均匀化Logistic映射机制提升初始种群的均匀性和随机性;利用正余弦优化和惯性权重机制改进发现者位置更新,提升全局搜索能力;引入柯西混沌变异机制增强种群多样性,避免局部最优解。利用M-SSA算法求解物流配送中心选址问题。实验结果表明,在解决配送中心选址问题上,M-SSA算
期刊
<正>十年禁渔的实施,对滇池土著珍稀鱼类恢复和生物多样性保护发挥了重要作用,但由于滇池高原湖泊的特殊性,鱼类群落结构单一化和个体小型化等问题依然凸显。本文在十年禁渔背景下,就滇池鱼类资源结构优化、生物多样性保护和渔业生态服务功能提升等方面提出意见和建议,以期为后续滇池生态修复工作提供参考。
期刊
提出两阶段组合优化算法的农产品物流配送中心选址算法。以农产品物流配送中心选址假设为基础,采用基于聚集度的启发式算法划分客户类别,确定备选配送中心的配送界限;以配送服务的可靠性最大化为目标,以配送总成本为约束条件,建立农产品物流配送中心选址的优化模型,使用免疫算法求解优化模型。实验结果表明,算法可有效获取最佳农产品物流配送中心选址,所选取配送中心到各配送点的运输费用较低,到达各个配送点的运输距离均未
期刊
医学图像在临床诊断中起着重要作用,通过对病人使用不同的设备扫描采集,可以得到MR、CT和PET等模态的图像。医生可以使用这些医学图像对病人的病情做出判断并实施确切的治疗手段。计算机辅助诊断系统旨在利用计算机设备对医学图像做出精准解释以辅助医生进行医疗诊断,辅助医疗领域的一个重点研究方向是医学图像配准。医学图像配准是将不同时刻或不同设备拍摄的同一部位的两张图像进行对齐。可变形医学图像配准要求两张图像
学位
饮酒会对大脑产生影响,严重情况下会危及生命。在大脑不同生理功能的表达中,工作记忆尤其容易受到酒精的影响。酒精对大脑生理功能的影响需要探讨,当前研究尤其缺少专门针对饮酒前后工作记忆变化的相关研究内容。因此,本文提出基于脑电图(Electroencephalogram,EEG)分析清醒与醉酒状态下的工作记忆的差异,即通过EEG特征分析,研究酒精对工作记忆负荷水平变化的影响。首先,构建小样本的醉酒EEG
学位
互联网技术是一把“双刃剑”,为人民群众工作、申习和生活带来便利的同时,也为犯罪中子论供了新的犯罪领域和手段。网络犯罪校以网络为犯罪对象的、以网络作为工具的或发生在网络空间的犯罪,可细中为新技术犯罪与传统犯罪网络化两种中型。电信网络诈骗犯罪作为传统诈骗犯罪的网络化具有虚拟性、跨地域性、多层级链条性、隐蔽性和非接触性特点。这种利用网络空间发展起来的诈骗犯罪,将传统诈骗属性同网络技术相结合形成了新的犯罪
学位
蓝莓僵果病是一种由真菌导致的病害,常常发生在蓝莓生长过程中,严重时,会导致蓝莓产量大幅下降,造成重大经济损失。蓝莓感染僵果病主要分为两个阶段:原发性感染阶段和继发性感染阶段,掌握蓝莓感染僵果病的具体阶段有助于采取适当的措施,减少僵果病对蓝莓的损害,降低经济损失。尽管深度卷积神经网络在农业疾病检测领域表现出了很好的效果,但由于需要大量的参数和计算,它在移动和嵌入式设备上的应用存在问题,而且,蓝莓僵果
学位
报纸
随着人工智能和大数据的发展,基于深度神经网络的文本分类技术在现实中的应用越来越广泛,比如情感分析、新闻分类、垃圾邮件分类等。这些文本分类模型在遇到对抗攻击时,其性能会显著下降并引起了人们的关注和研究。通用对抗攻击只需向任意输入添加一个固定的扰动序列,就可以成功地愚弄文本分类模型,而且可以在短时间内对其发起大规模攻击。现有的通用对抗攻击会无差别地攻击所有类别的文本样本,这很容易引起防御系统的注意,同
学位
随着社交平台的迅速崛起,各种短文本信息丰富着人们的生活,如微博、知乎和推特等,用户常以文字为主体分享自己感兴趣的事物。因此学者们可以从中发现用户感兴趣的主题信息,并将它们应用于实际项目中。目前大多数主题模型都是针对长文本数据,而在短文本的应用中,由于文本稀疏问题导致实验效果并不理想。为了克服短文本数据集的稀疏性问题,双词主题模型(Biterm Topic Model,BTM)将文本中提取出的共现词
学位