【摘 要】
:
近年来,随着数据量呈爆炸式增长态势,数据去重技术得到广泛发展和应用。为了节省网络带宽,广域网环境下通常使用数据去重技术来避免传输冗余数据。广域网去重技术主要应用在网络边缘设备(如交换机)上,当数据到达交换机时,先对其进行数据分块,再计算并对比各个数据块的指纹来识别和消除重复数据块,从而减少要传输的数据量。网络边缘设备存在上万条TCP流,传统单层哈希指纹计算方案会大大增加指纹碰撞的概率。当出现指纹碰
论文部分内容阅读
近年来,随着数据量呈爆炸式增长态势,数据去重技术得到广泛发展和应用。为了节省网络带宽,广域网环境下通常使用数据去重技术来避免传输冗余数据。广域网去重技术主要应用在网络边缘设备(如交换机)上,当数据到达交换机时,先对其进行数据分块,再计算并对比各个数据块的指纹来识别和消除重复数据块,从而减少要传输的数据量。网络边缘设备存在上万条TCP流,传统单层哈希指纹计算方案会大大增加指纹碰撞的概率。当出现指纹碰撞,会导致无法恢复的数据损坏。针对以上问题,提出面向广域网去重场景的指纹碰撞规避技术,具体而言:(1)利用MD5和SHA-1哈希运算速度快且计算开销低的特性,提出双层哈希指纹碰撞规避方案。同时,构建数学模型分析网络去重出现碰撞的概率。在对网络吞吐量影响小于10%的情况下,有效提高广域网去重系统抗冲突性。(2)针对双层哈希指纹碰撞规避方案需要通过额外的计算开销和空间开销来缓解哈希冲突的问题,提出基于可感知的相似性双层哈希指纹碰撞规避方案。感知大、小文件,充分利用数据相似性,从而在降低内存开销的基础上,获得优于SHA-1指纹计算模型的网络去重吞吐量。(3)针对多网络边缘设备导致可扩展性变差的问题,提出了基于局部性的哈希路径划分指纹碰撞规避方案。将数据块聚合成数据段,保留其局部性。再依据数据段特征值,将重复数据和相似数据路由至同一网络边缘设备,使得指纹字典存储负载平衡。在交换机上使用五个真实网络数据集对所实现的广域网去重系统DedupProxy进行性能测试。实验结果显示,广域网去重技术可以到达平均79.67%的冗余数据缩减比率。另外,应用广域网去重技术相比于使用SFTP协议直接传输数据平均可降低65.89%的网络传输时间。基于可感知的相似性双层哈希指纹碰撞规避方案可以在提升哈希指纹抗冲突性的基础上降低内存开销,仅为单一使用SHA-1指纹计算模型的6.25%。基于局部性的哈希路径划分指纹碰撞规避方案可以有效平衡指纹字典负载,相较于字典集成方案平均节省17.51%的开销。
其他文献
商业化新型非易失性内存(Non-Volatile Memory,NVM)产品的出现为实现大容量持久缓存提供了良好的机遇。在大容量持久缓存中,索引结构是决定缓存访问性能的关键因素。另一方面,持久化存储可避免缓存冷启动问题,但需要提供数据一致性保障机制,避免因意外宕机造成缓存数据不一致。因此,如何设计高效的索引结构并提供低开销的数据一致性保障机制成为构建大容量持久缓存的重要挑战。针对上述挑战,结合NV
远程直接内存访问(Remote Direct Memory Access,RDMA)技术的出现为构建高速分布式存储系统提供了新的可能,但是RDMA区别于传统以太网的通信特点,促使分布式系统需要重新考虑通信模块的线程架构以及数据传输方式。现有的分布式块存储系统传输过程中线程切换和锁争用开销巨大,针对这一问题提出贯穿式通信模型,一个线程贯穿整个RDMA传输周期,避免多线程通信时线程切换和锁争用开销。目
近些年来,随着全球数据产生量的爆发式增长,上层应用对底层存储的要求越来越高。与此同时,出现了一系列存储介质、存储协议、网络通信等方面的新兴技术。基于光纤的非易失性内存接口规范(Non-Volatile Memory Express over Fabrics,NVMeo F)扩展了非易失性内存接口规范(Non-Volatile Memory Express,NVMe)语义,广泛应用于分布式存储的高速
分布式数据库凭借其良好的写性能和扩展能力在大数据场景得到了广泛应用,基于日志结构合并树(Log-Structured-Merge Tree,LSM-Tree)的键值存储系统是数据库中最为常见的单机存储引擎。当有热点访问或节点伸缩时,分布式数据库各节点间以数据分片为单位进行数据迁移,而这通常会改变LSM-Tree按比例逐层放大的稳定树形结构。为保持结构稳定,LSM-Tree必须在后台频繁执行合并操作
预取作为常见的片外存储器延迟隐藏技术之一,可以有效缓解“内存墙”问题。传统预取器通过学习存储器访问模式来预测将要访问的数据。然而,数据组织方式的复杂导致存储器的访问呈现出不规则的特点,且多核系统的使用也令访问模式难以辨别,这些都使得传统预取器的精准预测变得困难。为此,具有复杂问题建模和强大学习能力的机器学习方法被用于设计预取器。但现有基于机器学习的预取器只专注于地址预测的准确性,而忽略了调整激进程
最近这些年,鉴于中国经济形态的转变,消费成为经济发展的主要动力。在影视行业飞速发展的同时,越来越多的角色演员被招募进来。推荐技术没有跟上,故而本论文采取了与过去不同的思路,设计了一个演员推荐系统。本论文围绕演员推荐系统的目标设计了一套推荐算法,并实现了一套有效的演员推荐系统,为选角人提供个性化的演员推荐。首先,借助于查询、分类、阅读相关文献,学习国内外理论研究现状及成果,分析未来发展走向,了解利益
基于非易失内存构建的持久化键值存储系统因其大容量、高性能、快速持久化等特性被广泛使用。为了满足应用不断增长的性能需求和对范围查询的功能需求,相关工作对持久化内存键值存储系统进行了优化,但以B+树作为索引的键值存储系统存在点查询性能低的问题,而基于Radix树索引的键值存储系统无法同时提供高性能和低空间开销,且崩溃一致性保证开销较大。针对上述问题,在非易失内存中设计实现了基于Min RT索引的持久化
随着数据密集型应用的日益增加,现代计算机系统对内存的容量和带宽提出了更高的要求。为了满足这些需求,采用DRAM(Dynamic Random Access Memory)与NVM(Non-Volatile Memory,非易失性内存)共同组成混合内存已经成为一种趋势。由于当前NVM与DRAM尚存在性能差距,为了充分发挥混合内存的性能,需要使更多的内存请求在高性能内存上完成,因此如何高效地动态管理数
保护系统作为核电厂神经中枢,是核电厂安全稳定运行的重要保障。传统保护系统采用模拟仪控技术,系统故障率高、自诊断能力差,定期试验多采用手动方式,试验步骤复杂、人因失误率高。随着计算机技术在保护系统中的应用,数字化保护系统自动化程度高、可扩展性强、自诊断功能强大,其可靠性评估方式和定期试验方案必然与传统模拟保护系统存在较大区别。另外,法规标准虽然对定期试验总体要求一致,但详细要求比较离散且不够统一。由
基于日志结构合并树(Log-structured Merge Tree,LSM-Tree)的键值存储系统将随机写通过缓存聚合为顺序写而获得了良好的写性能,目前已得到了广泛应用。然而,以LevelDB为代表的LSM-Tree键值存储系统在合并压缩过程中存在着严重的写放大问题,这不仅降低了系统的整体吞吐率,也影响着当前主流存储设备SSD的使用寿命。另一方面,LevelDB还存在着因写暂停而造成的高尾延