面向超算系统的大数据处理关键技术研究

来源 :国防科技大学 | 被引量 : 2次 | 上传用户:vlee46
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着各类高精度传感器的广泛应用以及科学模拟生成的数据越来越多,研究人员需要处理越来越大量的数据。分析和理解大规模数据,并从中获取有价值的信息是非常具有挑战性的问题。当前,大数据已经成为描述由于分析这种大规模数据带来的一系列挑战的流行词。在多种大数据处理模型中,MapReduce模型是当前最流行的大数据处理技术之一。该模型面向应用隐藏并行执行、数据移动以及容错等细节,因而极大得降低了应用开发者利用大规模并行与分布系统的门槛,被广泛应用在商业领域以及研究领域。然而现有主流的大数据处理框架(如Hadoop MapReduce以及Spark)面向商业集群系统设计,超算系统与商业集群系统在存储体系结构、内联网络以及软件栈等方面存在显著差异。例如,超算系统中的计算资源通常和存储资源分开,存储资源以全局共享的并行文件系统供所有计算节点使用,而商业集群通常由商业服务器通过网络连接而成,因此每个计算节点都有本地磁盘。由于这些差异,Hadoop MapReduce以及Spark在设计的诸多方面无法高效得利用超算系统的资源。虽然,当前存在一些面向超算系统设计大数据处理框架的工作,如MR-MPI,但是其对内存的使用效率不高。因此,为了实现高性能的大数据分析,我们设计了一个新的大数据处理框架Mimir。Mimir基于内存计算的思想进行设计,使用MPI等超算技术实现,并重点优化了内存使用效率,因而可以非常高效得利用超算资源。除此之外,我们还针对中间数据划分不均衡导致的负载不平衡问题进行了研究,并提出利用动态重划分技术实现负载平衡。另外,我们针对框架的并行性I/O能瓶颈问题,提出利用任务窃取以及MPI集合I/O提升并行I/O性能的方法。这些优化都在Mimir中进行实现。最后,我们对基因分析工作流程中的一个关键操作k-mer分析进行案例研究,并基于Mimir设计了一个新的k-mer分析系统。总结起来,本文面向超算系统研究了大数据处理的关键技术。该研究面向超算系统设计并优化了高性能的大数据处理框架,具有实用意义。同时,本文提出的技术方案对超算平台提供高性能数据分析服务具有借鉴价值,因而具有理论指导意义。本文的创新点包括:1.我们基于MapReduce模型设计了一个新的面向超算系统的大数据处理框架Mimir。Mimir通过任务的流水化,优化的中间数据管理以及基于MPI的中间数据交换等等,可以更加充分得利用超算系统的资源实现高性能数据分析。相对于MR-MPI,Mimir提升内存使用效率高达16倍;相对于Spark,其性能提升达到12倍。2.我们针对MapReduce框架由于中间数据划分不均衡导致的负载不平衡问题,提出利用动态重划分实现负载平衡的方法。该方法可以自适应不同数据集的特点,且可以提升性能高达5倍,同时也具有很好的扩展性。3.我们针对大数据处理框架面向全局共享文件系统部署时的并行I/O性能瓶颈问题,提出了利用任务窃取和MPI集合I/O分别提升读输入文件和写输出文件性能的方法。实验表明,这些方法可以提升读输入文件的性能高达50%,同时提升写输出文件的性能高达42%。4.我们基于Mimir设计了一个新的基因序列k-mer分析系统Bloomfish。Bloomfish充分利用Mimir的优化方法,如内存使用优化以及并行I/O优化等等,可以显著提升k-mer分析的效率。实验表明,Bloomfish可以在1.1小时完成24TB基因数据的分析,而采用其它框架需要几十小时,如Jellyfish分析的3TB基因数据即需要24小时,因而该工作具有加速基因分析的潜在应用价值。5.我们在国内外多台不同类别的超级计算机上验证了我们提出的技术方案,包括国家超级计算广州中心的天河二号、美国阿贡国家实验室的Mira超级计算机、美国圣地亚哥超算中心的Comet超级计算机以及美国德州高级计算中心的Stampede2等。这些实验表明,我们的研究成果适用不同类型的超级计算机平台。
其他文献
起重机是现代工业生产和起重运输中实现生产过程机械化及自动化的重要工具和设备。而在起重机吊装作业过程中,吊钩会不可避免的出现摆动现象,容易因摆幅过大降低搬运效率,甚至危害起重机作业和工人的安全。实现对吊钩运动姿态的实时监测,为稳钩措施提供了前提与保证,有助于提高工作效率、避免意外情况发生,具有十分重要的意义。在充分分析了起重机吊装作业的实际环境,以及对吊钩偏摆监测的应用模式基础上,本文设计了一种起重
作为复查和修订阶段的中心内容之一,同伴反馈在二语写作中起着不可或缺的作用。国外对于同伴反馈的定义、分类和识别存在重叠和不一致的现象,这种状况不利于反馈的理论研究,
土地作为人类生产生活中重要的自然资源,在人类发展中发挥重要的作用。近年来,土地资源的不合理开发已经可持续发展产生了严重影响,并且土地资源的需求与供给态势会随着城镇
以东北严寒地区典型乡村聚落形态为研究对象,分析冬季冷风与村落形态的相互关系,结合地形地貌和建筑密度的综合影响,运用软件模拟与数理分析等研究方法,从村落规模和村落空间
随着工农业迅猛发展、人口的不断增长以及城市化进程的加快,对深层承压水的开采增加,从而导致深层承压水水头下降,人为的加强了浅层地下水与深层地下水的水力联系;受到污染的
针对市政给水管道工程施工常见问题,做了深度剖析,提出了具体的防治措施。对常见的管道偏移问题和漏水渗水问题等,要从工程施工阶段入手,采取有效的防治措施,做好严格的把控
采用UV光谱法、荧光光谱法、双倒数法,在pH=7.40的缓冲溶液中系统研究小分子荧光素与β-环糊精的包合作用.摩尔比法确定小分子荧光素与β-环糊精的包合比nβ-CD:nFL=1∶1,表
本文主要是用单片机AT89S52为控制核心元件,设计了一个电子琴。核心主控为单片机,与键盘模块、扬声器模块等组成核心控制,主控模块上有16个按键和扬声器。系统稳定性良好,特
在生物医学和纳米材料迅速发展的时代大背景下,纳米生物技术也得到了长足的发展,多种多样的纳米材料和肿瘤治疗模式被开发出来。其中硅基和碳基纳米材料是最突出的无机纳米材
言论自由是宪法规定的重要权利之一,是公众不可剥夺的基本权利。在言论自由权利基础上形成的舆论对政府的公共管理能够产生巨大的影响力。在舆论的类型中,媒体舆论是其中传播最为迅速、影响力最大的一种。社会公众天然地给予社会热点事件强烈的关注,其中之一就是司法审判。媒体舆论与司法审判之间的关系包含着现代社会中民主与法治关系的深层奥秘。舆论体现着民主的力量,而司法在法治建设中起着重要的作用。司法公正需要很多条件