论文部分内容阅读
在大数据的时代背景下,数据密集型计算面临着新的机遇与挑战。传统的单机文件系统在大数据的需求面前显得力不从心,被广泛应用的并行文件系统在高并发的数据请求下,其缓存性能也难以满足数据密集型应用的需求。因此,提高并行文件系统缓存性能已经成为了一个重要的研究课题。 基于并行文件系统的客户端缓存优化系统(CCFC),利用开销预测模型有选择的缓存开销较大的写请求,能够最大化并行文件系统客户端缓存的性能。当应用程序向并行文件系统写文件时,并行文件系统首先分析写请求访问的文件域,同时向相关数据节点发送子请求。只有当所有数据节点完成它们所负责的子请求后,并行文件系统才会返回请求完成信号。CCFC系统通过修改PVFS2的客户端模块和服务模块,对文件写请求进行分析,利用提出的开销预测模型预估出 PVFS2完成这些文件写请求所产生的开销。基于开销预测模型,CCFC系统有选择地缓存那些带来较大开销的写请求。当程序从数据读写阶段进入到计算阶段时,缓存中的数据以后台读写的方式发送到数据节点。CCFC系统通过开销预测模型对文件写请求开销进行排序,只缓存部分写请求,避免大量缓存资源的占用。基于开销预测模型,CCFC系统能够有效地降低高开销文件写请求的完成时间,显著的提升并行文件系统的吞吐率。 测试结果表明,在服务数据密集型的测试集时,CCFC缓存系统相比传统的写通过缓存和写回法缓存,可以带来最大显著的吞吐率提升。实验表明,CCFC系统能够最大化客户端缓存的利用率,有效地提升并行文件系统的性能。