基于Hadoop的自适应实时透明压缩技术研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:shening
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化的高速发展以及移动设备和社交网络的快速普及,互联网的信息量呈爆炸性增长,用户每天以文字、图片、视频等形式产生大量非结构化数据,如何高效地存储和传输这些大规模的数据成为日益关注的问题。许多分布式文件系统应运而生,其中以Google提出的GFS文件系统为代表,这些系统多采用多副本机制来保证数据的可靠性,更加剧了数据存储压力。目前已经有一些工作在探索如何应用数据压缩技术来解决大数据的存储和传输问题,然而这些工作并没有深入研究系统吞吐率与数据、压缩技术特性之间的关系。因引,本文重点研究在Hadoop平台上应用数据压缩技术的三个关键问题:(1)如何对用户透明地(Transparent问题)进行数据压缩,为文件系统提供透明压缩机制?(2)如何能让数据压缩适用于(Adaptive问题)不同的数据类型和应用场景?(3)如何减少数据压缩带来的计算开销(Overhead问题)?  针对上述TAO问题,本文的主要贡献如下:  (1)针对T问题,设计并实现了Hadoop透明压缩文件管理系统SwiftFS。SwittFS是一个文件系统适配层,采用装饰(Decorator)模式,在不影响其它文件系统的情况下,以动态、透明的方式给单个文件系统添加压缩功能。SwiftFS将原文件系统中的每个文件分割成多个数据块,对每个数据块单独压缩后写入到原文件系统中,此外,还额外维护一个索引文件以提高随机读取的性能。实验表明,SwiftFS不仅节省了存储空间,而且显著提升了文件系统的读写性能。对于压缩比不超过0.5的数据,在不同的网络环境中,SwiftFS将HDFS的读写吞吐率提升了2-5倍。基于HDFS的数据分析系统均可方便地使用SwiftFS来提升系统的整体性能。  (2)针对A问题,提出了两个可应用于文件系统中的自适应压缩模型:QACM和PACM。QACM模型以排队论为理论基础,利用压缩比R、压缩速度CR和传输速度TR来评估写吞吐率,并给出了最优化写吞吐率的目标函数|CR×R-TR|。根据队列长度来比较数据产生速率和传输速率,从而选择压缩速度更快或更慢的算法。PACM模型采用估计的方法来预测压缩比、压缩速度和传输速度,通过最小化函数| CR×R-TR|的值从多种压缩算法中选择当前最合适的一种,比QACM模型具有更高的准确性。在16组对比测试中,PACM模型10次获得最高吞吐率,而在其它6组中与最高吞吐率的差距不超过10%。  (3)针对O问题,实现了基于硬件压缩卡的压缩器,分析数据表明,硬件压缩卡在压缩数据时,CPU的使用率维持在30%左右,而其它的压缩算法均为100%。为保证容错性,在硬件压缩卡失效后自动使用其实现的压缩算法在CPU完成数据压缩。为能利用硬件压缩卡来降低CPU的负载,在PACM模型中,通过压缩速度CR的估计值来检测CPU的使用情况,在CPU资源紧张时,将部分数据压缩操作转移到硬件压缩卡上。
其他文献
学位
学位
如何进行合理高效的任务调度是云计算研究的重要问题。本文结合新疆电子政务云系统,针对如何提高云计算任务调度的效率和负载均衡的问题,做前期的研究和探索。本文在对云计算环
客户端缓存技术是优化各种分布式或集中式存储系统的重要技术手段,它具有降低客户端访问延迟、降低服务器负载、以及平滑数据访问行为的优点。SSD技术的迅猛发展进一步增加了
电子断层(Electron Tomography,ET)三维重构技术能够在纳米尺度下重构出不具有全同性的细胞或大分子的三维结构,已成为一种公认的研究复杂生物大分子结构的强有力手段。虽然电
现代高性能片上网络(Network on Chip,NoC)互连芯片设计日益复杂,面临性能、功耗、面积、开发时间、成本等诸多因素制约,往往设计需经过从体系结构层到物理实现层的多层迭代与优
随着Web2.0设计理念的普及和技术的不断成熟,“以人为本”的网络模式逐渐成为当今互联网的主流,微博是其中具有代表性的应用之一。面对着海量的微博数据,微博检索已经成为用户在
学位
学位
随着大数据计算时代的到来,流式数据处理逐渐成为一个热门的研究领域。由于对数据处理低延时的严格要求,传统的计算模型已经不能满足流式数据处理的应用场景,流式数据处理需要一