论文部分内容阅读
随着计算应用正变得日益数据密集化,现有的计算系统面临着巨大的挑战,数据密集型异构系统是现有技术条件下现实的解决方案。包括了CPU-GPU的异构以提升计算能力;存储系统的异构以提升I/O性能;节点与网络的异构以提升可扩展性等。数据密集型异构系统的体系结构可以分为分布式系统和并行系统两种。前者以MapReduce集群和CPS信息物理系统为代表。后者以超级计算机和高性能集群为代表。其中存在很多对应的研究问题,本文选取了关键的容错和存储问题进行了研究。分布式系统主要是节点与网络的异构,容错技术对保证系统性能极为关键,本文重点研究了其中的计算容错的推测执行策略。并行系统主要是处理器和存储系统的异构,存储系统是瓶颈所在,本文重点研究了其中的异构并行存储系统数据布局策略。本文的主要工作及创新点如下:(1)提出了一种系统负载的推测执行策略ERSL面向数据密集型异构分布式系统的容错问题,提出了基于系统负载的推测执行策略ERSL(Estimate Remain time with System Load)。针对的是现有的推测执行策略没有考虑到异构环境下系统负载剧烈变化的现象,从而降低了策略的效率的问题。核心思想是将系统负载变化与任务执行时间的线性关系引入到策略的剩余时间估值中去,并改进掉队任务的判定,从而作出更快更准的策略判定。ERSL策略中在剩余执行时间的估值模型,任务优先级判定,掉队任务的发现方法,备份快节点的选择,四个方面做出了改进。实验表明了在系统负载变化时,ERSL策略的评估结果的误差更小,相比LATE策略能降低平均10%-15%的作业完成时间。当Map任务存在数据倾斜时,ERSL策略与LATE策略相比能降低平均21%的作业完成时间。由于推测执行的有效性,ERSL策略与NA?VE和LATE策略相比集群的吞吐量分别提高了10%和17%。(2)提出了一种异构感知的推测执行策略HMCP面向数据密集型异构分布式系统的容错问题,提出了异构分布式环境下的异构感知的推测执行策略HMCP(Heterogeneity-aware Maximum Cost Performance)。针对的是现有的推测执行策略尝试保证推测执行系统整体的收益,然而没有考虑资源与任务的异构性,使得策略不能准确反映集群的资源开销,导致误差的产生的问题。核心思想是充分考虑异构集群系统的任务,资源和Slot价值的不同,通过分开的推测执行,获得更准确的决策。HMCP策略感知资源以及任务的异构性,从任务类型区分,分类备份快结点选择,考虑Slot价值的HMCP模型三个方面做出了改进。实验结果表明,HMCP与LATE和MCP相比分别能够缩短12%26%和6%13%的作业完成时间,同时可以分别提高约18%和11%的作业吞吐量。(3)提出了一种基于分区粒度的数据布局策略RLDP面向数据密集型异构并行系统的存储问题,提出了分区粒度的文件布局策略RLDP(Region Level Data Placement)。针对的是异构并行存储系统通过替换机械硬盘进行部署,传统默认的文件布局策略不能充分利用新加入的固态硬盘性能的问题。核心思想是将机械硬盘服务器与固态硬盘服务器分成两个独立的并行文件系统,将应用的文件划分为若干个分区,将具有更高访问成本的分区,放置到具有更高性能的固态硬盘文件服务器中去,从而提升存储系统整体性能。RLDP分区的处理应用程序文件的放置,通过应用程序的访问模式获取,建立访问成本模型,分区收益分析,放置与重映射的实现的设计与实现,对原始数据布局策略做出了适应异构存储系统的改进。实验表明,RLDP策略,在非均匀的访问模式下,能够平均提高86.98%的读性能,和82.23%的写性能。(4)提出了一种基于分条粒度的数据布局策略SLDP面向数据密集型的异构并行系统的存储问题,提出了分条粒度数据布局策略SLDP(Strip Level Data Placement)。针对的是传统数据布局方案采用固定的分条大小,没有考虑到异构并行存储系统中机械硬盘文件服务器与固态硬盘文件服务器之间的性能差异,不能充分利用异构并行文件系统的潜力的问题。核心思想是根据访问模式获取可变分条大小配置,将关键的分区采用最优的分条配置,保证并行度和不占用额外硬盘空间的前提下提升系统整体的I/O性能。SLDP策略从可变分条的角度优化异构存储系统的性能,通过节点服务成本模型,最优分条配置决策,关键分区选择,分条放置方法的设计和实现,充分利用固态硬盘性能的同时,改进了RLDP降低并行度的缺陷。实验表明,SLDP能够显著的提升异构并行文件系统的性能,相较上章提出的RLDP策略,在均匀随机访问的情况下能提升51.3%和44.6%的读写性能,在非均匀的随机访问情况下也能获得RLDP相似的性能提升。