【摘 要】
:
近年以来,随着半导体行业工艺与材料学的前沿发展的大幅推进,芯片的计算性能在短时间以内获得了极大的提升,传统计算需求如流体力学模拟与新兴计算需求如人工智能模型训练与推理等都受益于芯片性能的大幅度提升。NVIDIA与AMD、Intel、Xilinx等诸多厂商与开源社区也对各种芯片的驱动软件与上层工业软件进行了长期的开发与优化使得普通开发人员使用各种芯片进行计算加速不再艰难,如CUDA,HIP,Open
论文部分内容阅读
近年以来,随着半导体行业工艺与材料学的前沿发展的大幅推进,芯片的计算性能在短时间以内获得了极大的提升,传统计算需求如流体力学模拟与新兴计算需求如人工智能模型训练与推理等都受益于芯片性能的大幅度提升。NVIDIA与AMD、Intel、Xilinx等诸多厂商与开源社区也对各种芯片的驱动软件与上层工业软件进行了长期的开发与优化使得普通开发人员使用各种芯片进行计算加速不再艰难,如CUDA,HIP,OpenCL,OpenMP,MKL等计算库。但是如何更好地编写GPGPU程序已经成为了目前最主要的挑战,而如cuDNN,cuBlas等将计算需求高度封装并优化开发的GPU加速库则会带来程序开发的灵活性上的问题。如今业界的程序性能分析工具大多由NVIDIA公司开发,如Nvprof、nvvp等工具;为了更加精确地在新架构下分析程序具体在每种硬件中的执行情况,NVIDIA开发了 Nsight系列程序性能分析套件,如Nsight Compute、Nsight System等。而为了方便程序员进行更加深度的性能分析,NVIDIA也在驱动层面开放了许许多多的二进制分析库,如NVbit,CUDA Sanitizer等工具;为程序员更加精细的对程序性能进行优化提供了理论与实践的基础。广大的GPGPU体系结构研究人员则基于上述的工具基础开发了许多的第三方程序性能分析工具,如HPCtoolkit与GVProf等。本篇论文主要分为两个GPGPU的性能优化方向:一为CUDA程序指令与GPU计算架构的协同设计与优化,主要表现为一个基于Nsight Compute提供的程序性能报告与NVIDIA官方手册提供的具体GPU架构信息综合而成的程序计算性能优化方案;二为CUDA程序访存特征与GPU存储架构的协同设计与优化,主要手段是通过CUDA sanitizer API 提供的 kernel memory 信息结合 HPCtoolkit 与 GVProf 等 profiling 工具获取并分析CUDA程序的访存特征,然后根据具体的GPU存储架构与GPU存储详细实现信息进行GPU的Cache系统的性能建模,且使用Sampling等方案进行访存方案特征检测的Overhead优化,最终使用Ampere架构下NVIDIA提供的高速缓存持久化接口对所有SM共享的L2高速缓存进行数据布局方案探索。本篇论文主要使用了 Rodinia、PolybenchGPU等性能测试套件与CUDA SDK以及CUDA Best Practices Guide等提供的程序进行实验验证,结果表明通过指令方面的优化可以使程序性能在RTX3090与Jetson Xavier中获得1.5x-36x的执行时间加速;通过访存方面的优化在RTX3090中获得了 5%-50%的存储读写流量降低,也验证了本文提出的数据布局与性能优化框架的有效性。
其他文献
幼儿美术活动是幼儿园进行艺术领域教育教学活动的途径之一,在幼儿美术活动开展中幼儿根据教师提供的支持性素材获得审美经验与自身的已有经验融合进行表现和创造,活动的进行都离不开经验运用。然而,纵观如今幼儿园的美术教学活动的开展,我们可以看到,一些教师在美术教学活动中强调技能,不注重想象力和创造力;忽视幼儿的自主探索与自主表达;并且很多幼儿出现“不会画”的现象。除此之外,美术创作活动内容组织无趣、提供素材
自2006年以来,家庭金融成为金融领域一个独立的研究方向,与家庭投资决策、家庭资产配置相关的研究层出叠见,这些成果让我们理解了家庭金融资产选择行为及约束。而这其中,背景因素在影响家庭的资产选择过程中扮演着重要的角色。本文认为,心理健康作为背景因素之一,可能是影响家庭投资决策的关键因素。基于这一思路,本文构建了实证模型展开研究。在对相关文献将进行梳理后,本文在已有研究成果的基础上归纳了心理健康对投资
大班孩子的自主性显著增强,对教师自主支持行为提出更多的需求。自古以来,幼儿韵律活动一直是幼儿的自然表现行为,舞动身体是幼儿的本能反应。教师在韵律活动中提供更多高水平的自主支持行为,尊重幼儿的自主性,给予幼儿更多的自主选择权,给幼儿创造一个轻松、自由、自主的环境,对幼儿自主性、主动性发展有极大的意义。本研究以鞍山市A幼儿园为例,以大班韵律活动中的教师自主支持行为为切入点,通过观察法、访谈法对大班6位
随着工业水平的发展及生产加工质量要求的提高,工业通信网络得到了快速发展,目前工业以太网已成为控制系统应用的主流网络。工业以太网通信网络是进行大部分工业生产的基础,其性能优劣关系到工业生产现场的数据能否正常传输,直接影响生产质量、效率和安全。因此,如何对工业通信网络性能进行分析评估,以保证其功能的正确行使,具有重要意义。在工业以太网通信网络中,主站和通信协议是影响其通信质量的关键组件。在主站评估因素
2016年教育部颁布的《幼儿园教育指导纲要(试行)》提出:“关注幼儿在活动中的表现和反应,教师应敏锐地察觉他们的需要,及时以适当的方式应答,形成合作探究式的师幼互动。”[1]此表述体现了现代教育理念对师幼互动的重视。除此之外,更多研究证明,师幼互动的质量不光影响幼儿自身发展,还影响教师专业发展。如:张晓梅(2016)对师幼互动质量进行评估,得出高质量的师幼互动对儿童的学习能力有一定的促进作用。本次
幼儿园主题活动作为围绕特定主题开展的教育活动,在当前幼儿园教育实践中被普遍应用,并逐渐成为幼儿园主要的课程形式。绘本的内容丰富多元,符合幼儿的认知水平与心理需求的同时还具有多领域教育价值的优势,在阅读绘本的过程中,幼儿能够获得全面发展。本研究选择以绘本为主题设计与实施主题活动作为研究对象,以行动研究法为主要研究方法,辅以访谈法、观察法和文献法。通过梳理和总结当前主题活动与绘本教学的相关研究,选择适
“国无德不兴,人无德不立”,崇德修身是青年为人处世的根本,也是青年成长成才的重要内容。青年作为国家发展和社会进步的生力军和突击队,他们的价值取向显得尤为重要,成为衡量未来社会道德水平的决定力量。因而,对青年进行道德教育不仅关乎他们自身的发展,更关乎当前的教育和未来国家的发展。进入新时代,习近平总书记更加关注青年群体的道德教育。他在深刻分析国际国内背景下,提出了青年道德教育的系列论述,旨在提高青年群
随着物联网技术的发展,交通、医疗、农业、工业等领域实现了高度自动化的环境监测、数据采集、数据分析和智能决策,方便了人们的生活。典型的物联网系统节点需要完成数据采集和传输功能,这些功能的实现大多基于嵌入式系统,并采用电池供电的方式。然而在大规模的物联网中,成千上万的节点电池更新和维护困难,给物联网的节点设计带来了挑战。作为电池的替代品,能量收集系统可以采集环境能源转化为电能,成为物联网节点的新型供电
本篇论文主要探讨涂装在动漫雕塑领域的应用,以及涂装的前期设计。动漫雕塑是雕塑专业的一个分支,分为原型和涂装两个部分。其中涂装指的是为素色的雕塑原型上色这个过程。从分析古今中外优秀的动漫雕塑涂装案例入手,结合色彩、人文等相关知识,多角度梳理涂装的表现形式和艺术风格,明确涂装在动漫雕塑创作中的重要作用。本文既是对涂装表现形式和艺术风格的深入研究,也是对自己多年涂装工作的总结和思考。在文中结合了以往的涂
在十九大提出“乡村振兴”战略之后,国家正式发布了《乡村振兴战略规划(2018-2022年)》。随着信息化和相关政策的大力推进,智慧社区得到了快速发展,从城市到农村,都在大力推进智慧社区建设,将科技融入农村治理之中、打造智慧社区成为了推进农村社区治理创新的重要途径与形式。然而,就当前农村智慧社区的整体性治理现状来看,群众的感知度、幸福感程度并不高。在治理现代化的背景下,基于理论视角开展的农村智慧社区