【摘 要】
:
Transformer是一个基于多头注意力机制的深度学习架构,在自然语言处理领域具有里程碑式意义,在业界很多大规模模型上得到了广泛的应用。近年来,Transformer也成为计算机视觉领域的重要研究方向。Transformer架构引入了并行化,利用并行训练,可大大减少训练时间,提高计算效率。2021年,新一代国产申威众核处理器SW26010Pro正式推出,其配套的软件环境中已完成了对Py Torc
论文部分内容阅读
Transformer是一个基于多头注意力机制的深度学习架构,在自然语言处理领域具有里程碑式意义,在业界很多大规模模型上得到了广泛的应用。近年来,Transformer也成为计算机视觉领域的重要研究方向。Transformer架构引入了并行化,利用并行训练,可大大减少训练时间,提高计算效率。2021年,新一代国产申威众核处理器SW26010Pro正式推出,其配套的软件环境中已完成了对Py Torch的移植工作,但对于Transformer模型的实现和优化仍不完善,具体表现为:一是部分深度学习算子存在通用性不足等问题,无法满足Transformer模型;二是部分深度学习算子存在并行效率不高的问题,无法充分利用众核处理器的计算能力;三是缺乏关于Transformer中典型算子的性能测试和基于Transformer的深度学习模型训练测试。为了解决基于新一代申威众核处理器的Transformer模型并行优化问题。本文首先研究了SW26010Pro硬件架构特性,设计了Transformer中基础算子的并行优化算法。然后设计了Transformer中深度学习算子的并行优化算法。最后设计了大量测试方案验证了最终优化的效果。具体来说,本文的主要贡献如下:第一,本文研究了SW26010Pro硬件架构特性,设计了面向其硬件特性的Transformer中典型基础算子的高效并行优化算法,大幅度提升了基础算子的计算效率和访存带宽。实验结果表明,对于如矩阵乘等计算密集型基础算子最高可取得90%以上的计算效率,对于逐元素运算等访存密集型基础算子最高能取得接近内存带宽峰值的访存速度,使用优化后的基础算子能有效地加速深度学习推理与训练。第二,本文研究了基于SW26010Pro的深度学习算子库的开发方法,设计了Transformer中典型深度学习算子的高效并行优化算法,形成了一套完整的Transformer加速库Swpex。实验结果表明,本文所实现的Layer Norm、Softmax、Linear、MHA等算子,对比于Pytorch原始版本算子,加速效果有明显的提升。第三,本文研究了申威异构众核架构上Transformer模型的训练过程,设计了针对基础算子、深度学习算子和基于Transformer的Vi T模型在各种参数组合下的测试方法。实验结果表明,基础算子和深度学习算子均能较好利用SW26010Pro的性能;采用Swpex加速库的Vi T模型对比原始版本取得了很好的加速效果,在单节点情况下,最高可达269倍加速。
其他文献
互联网和终端技术的发展实现了数据共享,使网络求职成为寻找工作的主流途径。但同时也出现了信息过载问题,目前多数职位推荐系统对隐式反馈考虑不足,也未充分挖掘职位描述的文本价值。因此,本文提出基于数据挖掘的职位信息可视化分析与个性化推荐,主要工作包括:(1)对职位数据进行预处理和可视化分析。基于网络爬虫技术采集到的真实职位数据进行特征清洗,然后从数值分布、单因素分析、多因素分析和词云图等多角度进行可视化
教育公平的落脚点在于促进每一个学生的发展。课堂是传递知识,促进学生发展的重要组成部分。师生互动又是课堂教学的重要组成部分,公平有效的师生互动是影响学生学习效果的重要因素。本研究基于公平视角研究数学课堂的师生互动,研究在高中数学课堂中师生互动公平性的现状及其影响因素,并构建师生互动公平性的分析框架。本研究主要采用课堂观察法、录像分析法和访谈法。对一名高中数学教师的7节数学课进行录制,并对其进行访谈,
几何变换经历了漫长的发展历程,在生产、生活中有重要应用,学生学习几何变换存在很大困难。因此本文根据Bergeron的数学理解层次理论,采用文献分析法、问卷调查法和访谈法,对黑龙江省哈尔滨市某市重点高中八个高二理科班的学生进行调查研究,从平移变换、旋转变换和轴对称变换三个维度研究学生平面初等几何变换的理解情况。运用SPSS软件对问卷结果进行定量分析,研究学生几何变换的直观理解水平、程序理解水平、抽象
在发展迅速的当代社会,创新越来越受到人们的关注,《普通高中数学课程标准(2017版)》也强调了培养学生创新能力的重要性。为了提高学生的创新能力,我们可以从培养学生的发散性思维入手。为了掌握高中生数学发散思维能力的现状,高中学生数学发散性思维各特征的相关性,数学发散性思维与数学学业成绩的相关性,不同班级档次、不同学业水平学生的数学发散性思维的差异性,本研究以吉尔福特的三维智力结构理论中的发散性加工部
数字技术的迅猛发展和普遍应用,改变了传统的知识获取方式,也对出版业产生了深刻影响。市场、产品、渠道等各方面的融合为教育出版开拓了更为广阔的价值创新空间,与此同时,教育出版产品形态不断更新,运营模式、价值传递、盈利模式等关键要素发生了巨大变化。传统出版企业原有单一化的商业模式已经无法适应更加多元化和动态化的产业环境,不利于企业在新融合市场内价值的开发实现。因而需要及时整合内外部条件进行创新来克服发展
公民的姓名是由其姓氏和名字所构成,姓氏在传统观念里被认为是氏族血缘关系的象征,名字则是对公民个人的代表。但随着时代的不断变迁,姓名权行使越来越被人们所重视,公民姓名中的传统象征意义逐渐减低,人们更加追求对自我个性的表达,公民在取名和称姓的过程中往往会追求与众不同,因此,关于姓名登记的行政案件不断出现在大众视野当中。而公民的姓名权行使方式之一就是公民对其姓氏或名字进行决定或更改,但作为公民基本权利之
翻译关联理论解释了语言交际和推理以及语境对翻译的影响。该理论从交际意图和信息意图、语境假设、关联性等方面阐释了翻译,并为翻译实践提供了指导。本文借助该理论,探讨翻译实践中冒险小说的翻译。本次所选的With Sword and Crucifix是Edward Sims Van Zile笔下的一本冒险小说。本次研究范围为前6章,该小说情节起伏,人物性格突出,以殖民开拓时代为大背景,讲述了主人公在密西西
人与机械的自然融合可以充分发挥人的智能和机械的精巧能力,在军事、医疗及安防等领域具有重要价值。本文根据六自由度(degree of freedom,DOF)机械臂建模,并进行正向运动学(Direct Kinematic,DK)和逆向运动学(Inverse Kinematic,IK)仿真。对运动规划方面的问题深入研究,包括关节空间轨迹规划和直角空间轨迹规划。在此基础本文基于Media Pipe机器学
在互联网平台经济发展的背景下,网络问答平台的价值活动被重构,平台通过创造广泛的连接,来进行多边市场的构建和运营,形成了一个整合知识创作者、资源提供者和终端消费者等多元化参与者的知识生态系统。然而面对外部高压的竞争格局以及内部参与者的价值冲突,问答平台仍面临着商业化优势不突出、用户难以建立价值认同、经营成本提升而入不敷出等转型难题。目前学界对网络问答平台如何管理和协调参与者之间的利益分配,构建价值共
随着人口老龄化的加剧,我国肿瘤的新发数和死亡数持续上升,导致多数人认为患上肿瘤就等同于死亡。而事实上,如果人们能提前了解肿瘤的相关知识,并积极采取行动,那将有近半数的肿瘤病例是可以避免的。在肿瘤知识信息化的今天,人们虽然可以很轻易的通过搜索来获取所需,但这其中包含着大量不准确的信息,严重影响了人们的判断。于是,肿瘤知识推荐系统应运而生。它可以向公众科普肿瘤预防的方法,改善肿瘤患者的生存质量,同时帮