面向科学计算流处理器的编译存储优化技术研究

来源 :国防科学技术大学 | 被引量 : 0次 | 上传用户:jinghong_22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
流处理器以其强大的计算能力、较低的功耗和灵活的可编程性,成为当前高效能计算系统定制加速部件的主要选择之一,已成功运用于2008年TOP500排名第一的IBM Roadrunner系统。然而,原本面向多媒体领域开发的流编译器,在处理数据依赖关系更加复杂的科学计算应用时,表现出较差的适应性,对流存储系统特征的利用十分有限,致使存储墙问题更为严重,成为制约其性能发挥的瓶颈。因此,研究面向科学计算流处理器的编译存储优化技术成为释放流处理器强大计算能力,有效缓解存储墙问题的关键。本文重点研究了如何通过编译优化技术来改善流处理器的存储性能。流存储系统包括三级存储层次:本地寄存器文件(Local Register File,简称LRF)、流寄存器文件(Stream Register File,简称SRF)和片外存储系统。优化片上存储器的局部性、隐藏访存延迟和避免片上存储器溢出,能有效改进流处理器性能。本文在分析了大量具有不同性能特征的科学计算流程序的访存行为后,面向科学计算从优化片上存储器局部性、隐藏访存延迟和避免SRF溢出等方面进行了深入的研究。本文的主要工作和创新如下:1.当前流编译器通过簇间通信机制发掘簇间记录复用,然而大量簇间通信的引入严重影响了程序性能。本文提出了流转置方法ST,该方法根据程序的复用信息重新组织数据,将簇间记录复用等价地转换为同一运算簇内的记录复用。同时,为避免因数据重组导致的存储体冲突,该方法给出了发生存储体冲突的判别定理,并采用循环分割技术避免冲突发生。该方法在不引入任何簇间通信且不影响流访存性能的同时,有效发掘了ALU簇间记录复用,改进了LRF的局部性。与当前流编译器的簇间复用发掘方法相比,ST方法获得了高达46%的性能提升。2.发掘SRF中的流复用能有效改进SRF的局部性。据我们所知,迄今为止还没有现成的方法,能够自动发掘流程序中起始或终止边界为变量的变界流之间的复用,只能依靠程序员手工完成。本文提出了定界流替换方法CBSR,该方法是国际上第一个自动发掘变界流完整复用的方法,由一系列创新性的理论、机制和算法组成,包括首次提出的流复用识别理论、首次定义并构建的用于描述流复用信息的流复用图(SRG)、基于SRG发掘流完整复用的程序变换算法和SRF压力评估与缓解算法等。CBSR方法有效发掘了变界流之间的完整复用,避免了数据的重复加载,改进了SRF局部性,提升了程序性能。与当前流编译器的流调度方法相比,CBSR方法获得了1.14~2.78的性能加速比。3.存在于流的访存子序列之间的流部分复用,是流编程模型所特有的一类复用。当前流编译器无法发掘变界流之间的部分复用,面向传统体系结构的编译技术中也没有可借鉴的方法。本文对CBSR方法进行扩展,首次提出了发掘流部分复用的E-CBSR方法,该方法包括:定义并量化流部分复用;提出并证明它的识别与判定理论;改进SRG以描述该类复用;扩展CBSR方法中的程序变换算法使其能够处理流部分复用。该方法同时发掘了变界流之间的完整和部分复用,消除了流的冗余加载,改进了SRF的局部性。与当前流编译器的流调度方法相比,E-CBSR方法获得了1.27~2.54的性能加速比。4.数据预取是隐藏访存延迟的一种有效方法,但资源分配冲突会导致预取失效。本文提出了一种基于SRG的SRF资源分配避免算法SRFACA。与已有SRF资源分配算法相比,该算法在SRF预取开销更小的同时,避免了SRF资源分配冲突,增加了预取的有效性。实验结果表明,在CBSR/E-CBSR方法优化后的流程序基础之上,SRFACA算法进一步获得了高达1.88的性能加速比。5. SRF溢出将导致流复用和流预取带来的好处尽失。当前流编译器采用循环分段算法避免SRF的溢出,却破坏了程序中跨迭代流复用的发掘和流预取。本文提出了基于SRG的循环分块算法。与当前流循环分段技术相比,该算法可给出更加精确的SRF空间需求,自动确定合适的块大小,在有效避免SRF溢出的同时,确保跨迭代流复用的发掘和流预取。与循环分段算法相比,该算法获得了1.12~2.61的性能加速比。
其他文献
大数据时代,急剧增长的网络速度和数据流量令当今各种网络设备不堪重负。更糟糕的是,随着网络应用的日趋复杂,网络系统的处理任务正从简单的包转发、包过滤演变到深度数据包
[目的]基于Nod样受体蛋白3(Nod-like receptor pyrin domain 3,NLRP3)炎性体轴和核因子-κB(nuclear factor-κB,NF-κB)信号通路,探讨加味三妙丸(modified Sanmiao pill,MSM
随新媒体技术的不断发展,其影响力不断拓展至社会的各领域,同时也对高校思想政治教育工作带来重大影响。高校应充分利用新媒体优势,使思想政治教育工作进入全新发展时期。本
  通过分析广西梧州高空站使用GFE(L)1型高空气象雷达进行探测时,放球后几分钟内斜距跟踪异常的情况。从雷达性能、探空仪特性、探测施放环境影响、观测员操作使用等几个方
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
采用O_3及O_3/H_2O_2降解四溴荧光素,考察四溴荧光素初始浓度,O_3相对投加量以及H_2O_2投加量对四溴荧光素降解效果的影响。结果表明:O_3及O_3/H_2O_2降解四溴荧光素的过程均
目的探讨高血压并合并糖尿病患者中医体质分布特征。方法选取在我院接受治疗的原发性高血压疾病患者120例作为研究对象,将其作为对照组,其余高血压病合并糖尿病患者作为研究
目的分析依托泊苷+顺铂(EP)化疗同步放疗序贯联合伊立替康+顺铂(IP)化疗用于老年广泛期小细胞肺癌治疗的价值。方法经病理学确诊的初诊广泛期小细胞肺癌老年患者48例,根据随
随着对于速度和功耗的要求越来越高,高性能微处理器设计变得越来越复杂。例如,Intel的Itanium2处理器使用了2.2亿个晶体管,包括11个功能部件,能够同时发射和提交6条指令。工
政府会计信息记录与披露是政府会计工作的重要组成部分,在信息技术不断发展与广泛应用的背景下,也面临着巨大的创新空间与压力。基于此背景,从构建ERP系统、采用连续性报告、