去重备份系统中基于容器特性的性能优化研究

来源 :暨南大学 | 被引量 : 0次 | 上传用户:yecongliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据量的迅猛增长给有限存储空间带来了巨大挑战。重复数据删除技术能够有效地识别和删除重复的数据块,大大地降低了存储数据所需空间和传输数据所需带宽,因此被广泛地应用在备份和归档系统中。然而,去重备份系统中磁盘索引的查找和数据碎片化分别损害了数据备份和数据恢复的性能。容器作为保留备份流局部性的基本单元,与数据备份和数据恢复的过程有着密切的关系。本文基于容器的基本特征,分别提出两种优化去重备份系统性能的方法:基于容器利用率的冷热索引分离。经过研究和实验论证,我们发现:(i)去重过程中,只有少量索引被频繁访问,其余大量索引很少被访问;(ii)容器利用率可以很好地反映索引被访问的频率。对此,我们提出了冷热索引分离法HID,HID通过将冷索引从全局索引剔除,在内存中只保留热索引,极大地提高了备份性能,此外,HID也小幅度提高了恢复性能。HID引入了一种新特性SDTU,SDTU特性指的是一小部分重复块被识别(转化)为唯一块,SDTU弥补了布隆过滤器不能识别重复块的缺点。为了充分利用SDTU和布隆过滤器的特性以进一步提高备份性能,我们最终提出HID的进化版本EHID。EHID将一个布隆过滤器整合到自身,并只将热索引映射到该布隆过滤器中。如此,EHID具有两个显著特征:(i)避免了识别唯一块操作触发的磁盘I/O;(ii)降低了布隆过滤器的误判率。这两个特征使得EHID始终高效地工作。基于容器引用率的近似最优重写算法。传统重写算法对单个数据段范围内的容器按照容器引用率进行排序,并选出该范围内引用率最低的容器。然而,当把单个数据段范围扩大到多个数据段或整个备份流范围时,我们发现这些容器并不是引用率最低(最优)的容器。对此,我们提出了近似最优重写算法OPT,OPT通过一个哈希桶数组记录多个数据段范围内的容器引用率排序情况,以选出近似最优的容器。不仅如此,OPT具有两种工作模式:最优重写和激进重写模式,最优重写模式旨在提高数据去重率,激进重写模式旨在提高恢复性能,OPT能够根据具体的负载自适应地切换工作模式,从而达到了良好的去重率和恢复性能。
其他文献
煤层开采过程中,断层及底板承压水的存在极大的增加了其附近工作面回采时突水危险性。实际工程中,为了避免突水事故发生,通常会留设宽度较大的断层防水煤柱,但同时造成煤炭资源大量浪费。本文以五沟煤矿F4断层实际地质情况为出发点,采用理论分析、室内试验、数值模拟等方法并结合工程实践,对工作面回采过程中断层活化特征及注浆后的断层防水煤柱留设问题进行了研究。主要结论如下:(1)通过理论分析,针对断层上下盘工作面
随着我国新一轮医疗卫生体制改革的逐步推进,现行的公立医院薪酬制度已经不适合新一轮医疗卫生体制改革的方向,并且不能满足公立医院发展的需要。解决公立医院薪酬制度的现存
食物资源丰富度、可利用性及其空间分布是水鸟越冬的关键因子,影响越冬水鸟的觅食策略,特别是植食性水鸟的觅食活动和生境利用直接受到食源植被的空间分布、存在数量、生长状况的影响,因此,水鸟食物资源状况和觅食行为的研究对于种群保护具有重要理论意义。本文以安徽升金湖白额雁(Anser albifrons)为研究对象,于2017年9月至2018年4月期间,采用焦点动物取样法和瞬时扫描取样法收集草滩、泥滩和稻田
科研项目的成效评估作为科研工作最后阶段的重要任务,既可以全面反应科研工作情况,也可以有效引导未来科研立项的方向。数据包络分析的设计目的是同时评估各种影响因素,以计算给定一组产出与投入的最有效情况。因此数据包络分析可以用于科研项目有效分配利用投入资源的评估。本研究主要针对“公益性卫生行业专项”科研项目进行绩效评价。对公益性卫生行业科研专项的3个投入指标包括项目经费、项目组人员数量、流动人员数量与15
目的:探讨应用单通道玻璃体切割技术治疗后发性白内障(posterior capsular opacification,PCO)的安全性及有效性,分析该手术对患者视力、屈光状态、眼压、黄斑中心凹厚度的影响。方法:前瞻性随机对照研究。2018年10月-2019年10月期间,就诊于大连市中心医院已行白内障超声乳化联合人工晶状体植入术后发生PCO的患者55例60眼,其中男27例29眼,女28例31眼,年龄
油菜是我国重要的油料作物,田间杂草是造成油菜产量下降的重要原因,使用除草剂是控制杂草的有效途径之一。草胺膦是一种广谱性除草剂,可有效控制禾本科杂草和多年生的双子叶杂草,我国目前还没有具有自主知识产权的抗草胺膦油菜品种。本研究旨在将具有自主知识产权的新型草胺膦抗性基因Syn1-Rep导入到甘蓝型油菜中,创制具有草胺膦抗性的转基因油菜。主要研究结果如下:1.在农杆菌介导的油菜下胚轴转化实验中,在不同的
近年来,我国经济发展迅速,人民生活水平日益提高,人们对于优质稻米的需求量逐渐增加,高产已不再是水稻生产的唯一目标。因此,优质稻栽培是我国未来水稻生产中重要的研究方向之一。再生稻种植模式作为我国水稻生产转型时期重要的应对策略,具有生育期短、日产量高、生产成本低的优点,并且再生季稻米品质优,有利于农民在增产的条件下真正增收。在我国水稻常规种植模式中,晚稻的稻米品质一般优于早稻和中稻。水稻灌浆结实期的环
随着我国经济的发展和城市化的推进,许多城市相继出现严重的空气污染现象。臭氧作为光化污染的重要指示污染物,研究臭氧及其前体物的变化规律,对了解城市大气中光化学烟雾的
近年来,计算机网络发展迅速,网络环境复杂多变,APT攻击事件频发,现有网络攻击模型无法满足对APT攻击及防御策略的分析需求,需要研究和探索新的模型。基于此,本文就APT攻击事件展开如下模型研究:(1)基于层次分析法的APT攻击模型APT攻击模型是分析APT攻击行为的重要手段。现有的关于网络攻击的建模方式大多采取攻击语言、攻击树、攻击图等建模方式,模式单一且并不完全适用于APT攻击。基于此,提出AP
目的人体循环中的非血小板核糖核酸粒子(Non-platelet RNA particles,NPRPs)能够参与组织再生、修复损伤等过程,具有与间充质干细胞(Mesenchymal stem cell,MSCs)及细胞外囊泡(Extracellular vesicles,EVs)相似的修复再生特性。NPRPs或与MSCs联合应用有望提高MSCs细胞替代治疗的疗效。本实验旨在通过将人体外周血中的NP