基于统一内存GPU的性能优化方法研究

来源 :国防科技大学 | 被引量 : 0次 | 上传用户:youlishi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
统一内存是GPU发展过程中一个重要的进展。它指的是在“CPU+GPU”异构系统中,CPU内存与GPU内存共享同一个虚拟地址空间,CPU与GPU可以使用同一个指针访问该地址空间。当GPU(CPU)所访问的数据不在本地内存时,系统会自动地将数据从CPU(GPU)内存迁移至本地内存,不需要人为干预。统一内存带来了三方面的益处:极大地简化了编程,使程序员从复杂的内存管理中解放出来;GPU执行与数据传输可以并行,并且对程序员透明;GPU内存超额配置成为现实,并且对程序员透明。然而,由于GPU本身不具备缺页处理的能力,当发生缺页时,由运行在CPU的软件运行时处理缺页。在这个过程中,CPU需要多次与GPU通信,因此会带来显著的开销。GPU内存超额配置会引发页的替换,这是与缺页处理相反的过程,也会带来显著的开销。这些开销会降低统一内存GPU的性能,不利于GPU的进一步推广。本文研究统一内存GPU的性能优化方法。具体地说,研究针对统一内存GPU的量化评估框架,以全面地分析缺页和内存超额配置对GPU应用性能的影响;研究针对统一内存GPU的页替换机制,以提高页替换的性能,降低内存超额配置所造成的性能损失;研究预取与替换的协同机制,以进一步提升内存超额配置管理的效率,提升统一内存GPU的性能。本文的主要工作及创新包括以下三个方面:1.提出了一个基于访存模式的量化评估框架APEF。该框架包含三个步骤:探索访存模式、量化评估与提出优化机制。首先,APEF探索了 GPU应用中典型的访存模式,给出了每种模式的定义并总结了每种模式的特点。然后,APEF量化地评估了缺页和内存超额配置对GPU应用性能的影响,包括测试GPU应用的性能对缺页延迟的敏感性、分析内存超额配置对GPU应用性能的影响以及评估四种替换策略的性能。最后,根据评估结果,APEF提出了相应的优化机制来缓解缺页和内存超额配置所造成的性能损失。2.提出了一个层级式页替换机制HPE。该机制通过在页组一级管理基元链,降低了管理开销,同时利用了页组中虚拟页的局部性。HPE利用统计数据把应用分成三类,然后为每一类应用选择一个合适的替换策略。为了应对可能出现的分类错误以及应用在运行过程中访存模式的变化,HPE使用了动态调整以便在需要时调整替换策略。为了提高替换决策的准确性,HPE在GPU端设置了命中信息记录缓存来记录命中请求的信息,该信息被周期性地传输到CPU中,用来更新基元链。实验结果表明,与LRU相比,当超额配置率为75%和50%时,HPE分别取得了 1.34X和1.16X的加速。3.提出了一个协同式页预取与替换机制CPPE。该机制包含一个替换策略MHPE和一个访存模式感知的预取策略。MHPE改进了 HPE以支持预取,同时保留了 HPE的性能优势。访存模式感知的预取策略根据被替换基元中的访存模式来预取内存页。在CPPE中,MHPE与访存模式感知的预取策略进行细粒度地协同:MHPE选择一个由预取策略预取的基元作为替换对象;预取策略根据MHPE选择的替换对象中的访存模式来预取内存页。实验结果表明,与基准机制相比,当超额配置率为75%和50%时,CPPE分别取得了 1.56X和1.64X的加速。
其他文献
同时定位与建图(SLAM)是计算机视觉领域的重要问题,在无人驾驶、自主导航、成像制导、侦察等领域有着广泛应用。红外相机可以在夜间、雾霾、光照差的环境下成像,具有全天工作能力,因此红外SLAM比可见光SLAM的潜在应用场景更广。但是由于红外数据获取困难、图像纹理弱、信噪比低,国内外对红外SLAM的研究十分有限。本文以适用于红外成像的SLAM系统为研究目标,在研究过程中主要解决了红外相机标定、SLAM
云计算平台是支撑互联网应用服务和大数据处理不可替代的基础设施,已经广泛应用于人类的生产、生活和城市治理的方方面面,呈现出大量数据密集型应用和日益提高的多应用粘合度,这不断加剧了云计算平台的I/O压力。为了支持应用迁移,提高云服务可靠性,云计算平台中的虚拟机使用分布共享存储资源来存储其关键数据。共享存储通过内部网络(如以太网)互连,大数据量存取的带宽可超过单磁盘带宽,但是,在小量数据存取时,延迟大,
基于计算机视觉的自动图像分割是机器辅助医疗图像分析任务中至关重要的步骤。自动且快速地获取具有准确分割掩码的医疗图像,对于帮助医生提高诊断精度、速度以及针对不同病人提供个性化的治疗方案具有重要的意义,针对该技术的研究也是当前科研领域的热点方向。在所有的研究问题当中,由于受到医疗图像独有的对比度低、噪声大、伪影多、内存占用量大以及获取标注信息困难等特性的影响,表示学习成为了提高医疗图像分割性能的核心方
随着5G、物联网、云计算的发展和行业数字化进程的深入,互联网流量爆炸式增长,网络应用也日趋复杂化和多样化,要求网络设备不仅具备极高的处理性能,还应具有极好的灵活性,能够提供面向新型协议、业务的快速定制及优化能力。然而,网络处理器作为网络设备的核心处理单元,采用通用多核或者专用多核的实现方式,难以同时兼备极高的处理性能和良好的灵活性。基于通用多核实现的网络处理器虽然具有极好的灵活性,但存在报文处理吞
随着超级计算机的规模不断扩大,体系结构日益复杂,系统可靠性的要求也急剧增高,使得与可靠性紧密相关的系统故障预测和研究面临着极大的挑战。超级计算机系统中的故障一般具有瞬时性、多样性以及不确定性,这些因素对故障信息采集、故障预测以及容错提出了更高更复杂的要求。由高效的数据采集能力和快速准确地数据分析能力所构成的数据预处理技术,为面向超算系统的容错技术提供了强大的数据保障。于此同时,E级系统中单个科学计
电磁逆散射成像是逆问题的一种,其非适定性和非线性为目标的高质量重建提出了极大挑战。在电磁逆散射问题的实际模型中,只能获取关于目标的有限信息,实现精确重建十分困难,因此开展高分辨精确成像技术研究具有重要意义。本文主要从三个方面开展研究:第一,现有成像算法中缺乏对超分辨成像机理的深入研究,本文提出了一种基于轨道角动量(Orbital Angular Momentum,OAM)电磁波的超分辨成像算法,详
在信息经济时代,信息管理需依赖于计算机技术、网络与通信技术等最新成果,将各类分布式信息资源互联互通,以此实现系统的整体优化和规模优势。数据中心网络是目前最重要的网络技术之一,它将大量计算和存储服务器连接起来,以更经济更便捷的方式达到高速计算和海量存储等需求。然而,数据中心网络内部网络拓扑的改变,交换机的升级,虚拟机的迁移,交换机和链路失效等都会引起数据中心网络更新,即流量传输路径的改变,这给数据中
IC产业全球化已经成为促进信息革命深入发展的中流砥柱。2000年,中国提出加速融入全球IC生态体系,形成各地区多级并举发展格局。然而,关系国脉民命的全球化背后安全隐患暗流涌动。2016年,A2问世标志着微观层面的黑客逻辑已经极为隐蔽,可令传统数字安全工具束手无策。现实困境倒逼技术革新,催生版图分析和旁路分析等重要成果。版图分析已可检测IC中布线级电路信息,但是该技术面临的经济和时间代价使其难以推广
经典的陆用定位导航技术,如惯性导航以及惯性与里程信息、地标信息、零速停车信息、卫星信息的组合导航技术等,在满足长时间大范围工作情况下机动、快速、自主导航定位的作战使用需求时,都有着各自的技术缺陷。为了突破陆用导航领域传统技术方案,本文对高精度惯性定位定向地图信息匹配导航技术进行研究,提出了采用地图匹配辅助惯性定位定向方法,提高长航时大半径情况下的自主定位精度,对提升快速自主精确能力并降低保障要求与
大数据时代产生了海量数据,大数据应用对内存系统提出了三方面的挑战,包括计算密集性、信息安全性以及海量数据存储。传统的内存由于功耗高、可扩展性差等缺陷,无法满足大数据应用的需求。新兴的非易失内存介质以其低功耗、存储密度高、扩展性好等优良特性,为解决这些问题带来了希望。然而,如何使用非易失内存技术,克服非易失内存自身的不足,构建高性能安全可靠的非易失内存系统,仍然需要深入的研究。本文围绕大数据应用的三