论文部分内容阅读
随着各类高精度传感器的广泛应用以及科学模拟生成的数据越来越多,研究人员需要处理越来越大量的数据。分析和理解大规模数据,并从中获取有价值的信息是非常具有挑战性的问题。当前,大数据已经成为描述由于分析这种大规模数据带来的一系列挑战的流行词。在多种大数据处理模型中,MapReduce模型是当前最流行的大数据处理技术之一。该模型面向应用隐藏并行执行、数据移动以及容错等细节,因而极大得降低了应用开发者利用大规模并行与分布系统的门槛,被广泛应用在商业领域以及研究领域。然而现有主流的大数据处理框架(如Hadoop MapReduce以及Spark)面向商业集群系统设计,超算系统与商业集群系统在存储体系结构、内联网络以及软件栈等方面存在显著差异。例如,超算系统中的计算资源通常和存储资源分开,存储资源以全局共享的并行文件系统供所有计算节点使用,而商业集群通常由商业服务器通过网络连接而成,因此每个计算节点都有本地磁盘。由于这些差异,Hadoop MapReduce以及Spark在设计的诸多方面无法高效得利用超算系统的资源。虽然,当前存在一些面向超算系统设计大数据处理框架的工作,如MR-MPI,但是其对内存的使用效率不高。因此,为了实现高性能的大数据分析,我们设计了一个新的大数据处理框架Mimir。Mimir基于内存计算的思想进行设计,使用MPI等超算技术实现,并重点优化了内存使用效率,因而可以非常高效得利用超算资源。除此之外,我们还针对中间数据划分不均衡导致的负载不平衡问题进行了研究,并提出利用动态重划分技术实现负载平衡。另外,我们针对框架的并行性I/O能瓶颈问题,提出利用任务窃取以及MPI集合I/O提升并行I/O性能的方法。这些优化都在Mimir中进行实现。最后,我们对基因分析工作流程中的一个关键操作k-mer分析进行案例研究,并基于Mimir设计了一个新的k-mer分析系统。总结起来,本文面向超算系统研究了大数据处理的关键技术。该研究面向超算系统设计并优化了高性能的大数据处理框架,具有实用意义。同时,本文提出的技术方案对超算平台提供高性能数据分析服务具有借鉴价值,因而具有理论指导意义。本文的创新点包括:1.我们基于MapReduce模型设计了一个新的面向超算系统的大数据处理框架Mimir。Mimir通过任务的流水化,优化的中间数据管理以及基于MPI的中间数据交换等等,可以更加充分得利用超算系统的资源实现高性能数据分析。相对于MR-MPI,Mimir提升内存使用效率高达16倍;相对于Spark,其性能提升达到12倍。2.我们针对MapReduce框架由于中间数据划分不均衡导致的负载不平衡问题,提出利用动态重划分实现负载平衡的方法。该方法可以自适应不同数据集的特点,且可以提升性能高达5倍,同时也具有很好的扩展性。3.我们针对大数据处理框架面向全局共享文件系统部署时的并行I/O性能瓶颈问题,提出了利用任务窃取和MPI集合I/O分别提升读输入文件和写输出文件性能的方法。实验表明,这些方法可以提升读输入文件的性能高达50%,同时提升写输出文件的性能高达42%。4.我们基于Mimir设计了一个新的基因序列k-mer分析系统Bloomfish。Bloomfish充分利用Mimir的优化方法,如内存使用优化以及并行I/O优化等等,可以显著提升k-mer分析的效率。实验表明,Bloomfish可以在1.1小时完成24TB基因数据的分析,而采用其它框架需要几十小时,如Jellyfish分析的3TB基因数据即需要24小时,因而该工作具有加速基因分析的潜在应用价值。5.我们在国内外多台不同类别的超级计算机上验证了我们提出的技术方案,包括国家超级计算广州中心的天河二号、美国阿贡国家实验室的Mira超级计算机、美国圣地亚哥超算中心的Comet超级计算机以及美国德州高级计算中心的Stampede2等。这些实验表明,我们的研究成果适用不同类型的超级计算机平台。