通用可扩展的分布式文件系统性能测试框架研究与实现

来源 :南京大学 | 被引量 : 0次 | 上传用户:aku168
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
分布式文件系统(DFS, Distributed File System)构成了分布式计算的基础,是如今日益发展的大数据应用的重要核心之一。经过数十年的发展,目前存在种类繁多的分布式文件系统,它们具有不同的设计目标和特点。针对不同的特点,在运行大数据应用时需要不同的集群环境和配置,因此,充分了解分布式文件系统的性能和特性就显得极其重要。一方面,用户需要根据性能测试结果为目标应用选择最合适的分布式文件系统:另一方面,开发者需要一个性能测试框架以进行分布式文件系统的调优工作;进一步地,性能测试能够很好地反映出现有分布式文件系统的瓶颈,为新系统的研究和开发提供指导。现有的分布式文件系统性能测试工具提供的覆盖面有限,并且大都侧重于特定功能的测试,缺乏一个统一的性能测试框架,而实现一个理想的分布式文件系统性能测试框架面临着诸多困难和挑战。首先,该框架必须是通用可扩展的,能够方便地对不同的分布式文件系统进行性能测试;其次,它需要提供灵活的、可定制的测试用例,以满足不同的用户需求和应用特性;最后,测试框架要能够适应不同的分布式环境,并且不能明显地影响分布式文件系统本身的性能,以得到准确可靠的测试结果。本文设计并实现了一个通用可扩展的分布式文件系统性能测试框架,DFS-Perf,以实现对现有的和新的目标分布式文件系统进行性能比较。DFS-Perf支持多种并行测试模式,能够在不同的分布式文件系统上运行一系列典型的测试用例。本文的主要贡献点有:(1)设计并实现了DFS-Perf,一个通用的、高度可扩展的、易使用的分布式文件系统测试框架。DFS-Perf能够以多节点、多进程和多线程的并行方式对不同的分布式文件系统进行性能测试,并且支持添加新的目标系统和测试用例。(2)通过分析现有大数据应用的文件访问模式,设计并实现了一系列典型的测试用例。同时, DFS-Perf支持自动地从运行在分布式文件系统之上的应用中获取文件操作记录,分析其文件访问模式,并生成能够模拟这些应用特性的测试用例。(3)在一个具有40个物理节点,共960个核的集群环境上使用DFS-Perf对四个具有代表性的分布式文件系统,Alluxio、CephFS、GlusterFS以及HDFS进行了性能和可扩展性测试实验。进一步地,通过对比实验验证了DFS-Perf最多只引入了5.7%的额外开销。(4)根据性能测试结果,对比了不同分布式文件系统的设计决策,分析了产生性能瓶颈的具体原因,总结出不同特性对性能造成的影响。同时,也利用DFS-Perf发现和解决了常用分布式文件系统中的性能问题。
其他文献
无线网络编码系统可以极大的提高无线网络的带宽利用率。然而,一种名为污染攻击的攻击可以对无线网络编码系统造成极大的破坏,从而影响到网络编码系统在实际部署中的可行性。
多视角学习是近年来机器学习领域的一个热门研究方向。多视角学习利用事物的两个独立或不相关的视角以特定的训练方式来进行学习。传统的多视角学习用来处理具备多个信息源的