基于闪存的乐观数据复制技术研究

来源 :浙江大学 | 被引量 : 0次 | 上传用户:chensiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机科技与互联网技术的高速发展,全球的应用系统产生了海量的数据。这些数据系统一方面要求较高的访问性能,另一方面也要求较高的可用性,同时也要求具有容量与地理的高可扩展性。所以,分布式存储系统的大规模使用就成为了满足以上需求的必然选择,而其中,数据复制技术尤其是乐观数据复制技术是最为核心的技术之一。乐观数据复制的本质是在各个分布节点上数据副本的创建与维护,那么就必然需要和存储介质发生关联。传统的存储介质一般以机械磁盘为主,但是机械磁盘是上个世纪70年代的产物,已经远远落后于整体的计算机发展进度,不能满足对数据的高吞吐率读写要求,所以一种新型的电子存储器:闪存,应运而生。闪存相比传统磁盘,具有读写吞吐率高,随机读写性能优越,并发读写优势明显等优点,但是,由于其特殊的物理结构,也存在着“写放大”与“重写前擦除”等缺点。所以,传统的应用系统虽然直接通过硬件的升级就可以收到良好的性能提升,但是系统仍然需要进一步的调整与优化,解决“闪存并发写入优势的合理应用”与“闪存写入操作缺陷的规避”这两大问题,才可以充分地发挥闪存的特性。那么,作为与存储介质关系紧密的乐观数据复制系统,在采用闪存作为存储介质之后,也需要进行算法本身的改进与优化,才可以解决上述两大问题,实现数据复制性能等指标的迸一步提升。  乐观数据复制根据数据更新的数据流,可以分为5个过程,即操作提交,数据更新分发,数据更新调度,冲突检测/解决,以及数据更新提交。其中与存储系统紧密相关的为三个过程,即数据更新分发,数据更新调度与数据更新提交。所以,针对基于闪存的系统需要解决的两大问题,从上述三个过程出发,本文的主要内容如下:  本文首先针对在数据更新的分发过程中,一般以单一数据更新为单位,容易产生大量不适合闪存写入特点的随机小数据量写操作的缺陷,提出了闪存感知的成组数据更新分发算法FAGUA。该算法以相关数据集为数据更新分发的基本单位,并只在相关数据集的修改比率达到一定阈值的时候才触发分发过程,从而实现了以闪存数据块或其整数倍为基准的写对齐,解决了基于闪存特性的数据更新分发时机选择问题。之后,又基于FAGUA,提出了改进的数据更新分发算法IRN-FAGUA,即基于理想数据副本的FAGUA算法。该算法首先对每个相关数据集的理想数据副本数目进行计算,然后以此为依据,解决了在数据更新的分发过程中是否需要创建或替换数据副本的问题。FAGUA与IRN-FAGUA规避了闪存的写入缺陷,降低了闪存的擦写次数,提高了整体的数据复制性能,同时由于数据相关性的引入,也大大地提高了数据副本的本地命中率。  之后,本文又针对数据更新调度过程中的缺陷,即调度结构往往为单队列设计,无法充分发挥闪存的并发写入优势,提出了基于闪存的多队列数据更新调度算法,FBSA。FBSA以数据修改集作为数据分发内容,通过对不同数据修改集之间的依赖关系判断,以最小化其非本队列数据依赖集中的元素个数为目标,实现了多队列的调度结构创建。同时,以最大化后台提交过程的并行度为目标,尽可能同时从所有的调度队列中获取头元素用于并发提交,从而实现了多队列调度结构的充分使用。该算法可以充分地发挥闪存的并发写入优势,有利于闪存利用率与数据复制性能的提升。  最后,针对数据更新的提交过程中,提交一般以单独的操作为单位,从而也会产生大量小数据量随机写,不适合闪存写入特点的缺陷,本文提出了基于上下文的数据更新提交算法,CBCA。CBCA通过对一定时间窗口内所有操作的上下文分析,得出所有操作之间的可合并,可覆盖或可回滚关系,然后对操作进行合并或者消除,实现了以闪存数据块大小为基准的组提交。从而规避了闪存的写入缺陷,有利于每个操作所消耗的底层I/O数的降低与整体数据复制性能的提升。
其他文献
时间序列问题作为数据挖掘中的一类重要问题,其重要性表现在现实世界中大量数据的采集与时间相关,数据具有时间上的关联性。时间序列是指按时间顺序排列的一组有序序列。时间序
在许多机器学习的实际任务中,获得足够的有标记样本是非常昂贵和费时的,而大量的未标记样本容易获得。在少量有标记样本上使用监督式学习方法,训练出的学习器泛化能力不强,容
互联网的迅猛发展,使得国家、企业、高校以及其它关键部门的安全事件呈现的增长趋势,网络安全问题正面临着前所未有的挑战。尤其随着日益增长的网络流量和多样化的攻击手段,对网
随着信息化技术的不断进步,互联网取得了快速发展,作为海量信息载体的图片资源也获得了爆炸式的增长。图像检索的需求日益扩大,但传统的基于内容的图像检索技术无法将图像底
无线传感器网络产生于20世纪80年代到90年代,最早应用于军事领域。21世纪至今,无线传感器网络以其自组织、节点设计功耗低等特点,其应用领域越来越广泛。该技术在信息技术、经济
目前,以社交网路为代表的Web2.0网站正逐渐演变为开放平台,国内外各大开放平台纷纷采用OAuth协议解决跨域认证授权问题。OAuth协议是一个开放授权标准,允许第三方应用在不泄露隐
随着移动设备的不断普及,基于空间位置的查询服务已经逐渐渗入到人们生活的方方面面。无论是从欧式空间的查询研究到路网环境下的查询研究,还是从静态对象的查询研究到移动对象
服务选择是实现服务共享复用的重要环节,随着互联网技术的飞速发展,满足相同功能属性而具有不同非功能属性的候选服务呈爆炸性增长,如何在众多候选服务中高效选取所需服务已成为
伴随世界经济、人口的快速发展及城市化进程的稳步加快,随之而来的公共安全事故日益增多,公共安全的管理问题引起社会各界的广泛重视。对人群的疏散行为进行研究,总结行人运
随着网络用户数量的爆炸式增长,传统网络受到较大冲击,僵化问题越来越严重。近年来,网络虚拟化(Network Virtualization,NV)技术作为一种解决网络僵化问题的有效途径,受到了