GPU的资源与性能优化策略研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:mazipeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图形处理单元(Graphic Processing Unit,GPU)由于复杂的体系结构和较高的编程难度,充分利用其计算资源和有效发挥性能面临巨大的挑战。在软件方面,需要充分了解GPU的并行加速特性,有效利用各种计算资源,充分发掘性能潜力;在软硬件结合方面,需要充分利用特定硬件优势,针对特定软件计算模式进行资源优化和性能加速;在硬件方面,需要进行体系结构的设计优化,改进资源调度策略,减少硬件开销。本文从资源优化和性能提升两个角度入手,分别从GPU应用程序优化研究、基于INT8量化的神经网络优化策略研究和GPU缓存调度策略优化研究三个方面,分析GPU现有的优化问题,提出了相应的优化策略。具体的研究内容如下:(1)根据GPU的并行加速特点,进行传统算法并行性分析和优化,充分提高算法性能。本文选取经典图像细化算法进行并行加速,根据并行性分析结果,提出两个加速策略,(1)滑动窗口(Sliding Windows,SW)用于减少不必要的内存传输;(2)将模板转化为查找表(Templates-to-Lookup-Table,TPL2LUT)用于解决算法流程中的条件分支问题。实验结果表明加速策略能有效解决冗余拷贝和条件分支问题,获得平均2.17倍的加速效果。(2)利用GPU的INT8硬件加速技术,结合量化策略进行神经网络线上推理加速。硬件方面,利用NVIDIA GPU的INT8硬件加速技术,对矩阵乘操作进行加速。软件方面,调研INT8量化算法,从精度损失和性能提升两个方面分析利弊,并选取量化算法开发GPU INT8加速库。实验结果证明,该加速卡普适性高,精度损失低,不需要额外的步骤来保持精度,加速效果明显,模型压缩率可观。(3)通过对现有的GPU体系结构缓存调度策略进行分析,不断完善调度策略,达到充分利用GPU计算资源并提升性能的目的。针对GPU缓存模型无法满足大规模线程并行的需求导致的缓存竞争问题,分析出基于局部性的Decoupled L1D(D-L1D)算法存在的缺陷:固定的局部性阈值(Locality Threshold,LT)会影响性能提升。为了解决该缺陷,提出了基于探索的动态D-L1D(Dynamic D-L1D,DD-L1D)算法,根据运行时缓存状态动态地调整LT的值。本文实验结果表明,DD-L1D在性能提升和资源优化方面均优于D-L1D算法。
其他文献
在船舶轮机中,热交换器是保证轮机在正常设备,当然常见的换热器非常多,壳管式,板式等等,不同的换热器在优点和缺点上非常明显。而板式的热换器在轮机工程中经常使用的电气设
随着中国经济进入新常态,固定资产投资、房地产投资增速回落,以及新环保法的颁布实施,2015年钢铁行业面对的下行压力甚于以往,多数钢铁企业经济效益创近20年来的新低。本文通过对
学位
数学问题不仅是建构数学教科书的核心要素,也是数学教与学的核心要素.教师通过对数学问题的剖析、意境的挖掘传播数学的知识、思想和方法,学生通过问题的发现、提出、分析和
传统农业发展过程中,由于其本身没有形成较为系统化和科学化的环保意识和环保体系,导致在种植过程中对农药的大量运用,一定程度上损失植物的天然属性,降低农产品本身的营养程
目的探讨肺结核患者的应对方式及其影响因素。方法用医学应对问卷对122例肺结核患者进行测定分析。结果肺结核患者面对因子分低于国内常模(P〈0.001),回避、屈服因子分与常模差异
美国对于原油出口的限制由来已久,早在1970年,中东对美国石油禁运敲响美国对能源安全的警钟,美国于1975年通过《能源政策和节能法》,该法案以及同时期颁布的《出口管理法案》和《
报纸
以氢氧化钡和尿素为原料,采用均相沉淀法制备了碳酸钡粉体,通过添加合适的晶形控制剂,合成了柱状碳酸钡粒子.研究了合成条件及控制剂用量对碳酸钡粒子的影响及柱状碳酸钡的形
提出了一种用多域边界元技术求解大型工程问题的新算法.首先,采用三步变量凝聚技术,将由内部点、边界点和公共结点表述的每一子域的基本边界元代数方程表述成只有公共结点变量为
本文主要就公众移动通信网络铁路覆盖工程实施现状,展开了相关的研究与探讨工作,首先就工程技术方案的施工范围限制、施工工程许可、网络覆盖要求等特点进行阐述,而后针对网络运
<正>目前,在市场上出售的疫苗主要分为两类,一类是活疫苗,另一类是灭活疫苗。活疫苗免疫剂量相对少,一般可在机体内繁殖而产生大量抗原,能刺激机体局部免疫器官产生良好的局