支持深度学习算子并行算法调优的ParaC编译器研究

来源 :山东科技大学 | 被引量 : 0次 | 上传用户:gongwj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,深度学习广泛的应用在各个领域,为我们的生活和生产带了巨大的进步。但是深度学习是建立在庞大的训练数据和巨大的计算资源消耗之上的。而且,算法又是深度学习的核心,因此针对深度学习算法的加速显得尤为重要。随着NVIDIA等公司对GPU大规模并行架构的推进,GPU已成为深度学习优化的主流加速平台,但是由于GPU复杂的体系结构,基于GPU平台上的程序优化面临着优化困难、复杂且效率低的挑战。学术界与产业界研发了一些深度学习的编译优化框架,他们支持典型的算子、面向典型众核平台、并行优化和自动调优。但是现有工具依然存在很多解决不了的问题。本文针对深度学习算法,基于ParaC编译器,实现了可以对深度学习算法进行并行调优并生成GPU平台上高性能CUDA代码的编译器。对当前的ParaC语言进行扩展,支持复杂嵌套的循环结构与高于两维的矩阵类型;提高编译器的并行分析和优化能力,并提供生成CUDA代码的后端;设计实现开放的调优接口,提供了 OPI制导的方法,支持显式的优化策略调优;提供数据流优化的OPI制导与运行时函数,支持多语言混合编程中的数据流优化。本文选取典型的两个算法对ParaC编译器进行性能评估。首先,给出算法的ParaC写法,经OPI制导调优与编译器输出CUDA版本代码,最后比较ParaC生成版本与手工版优化版本、高性能算法库的性能。总的来说,ParaC版本与手工优化版本性能持平。桶排序在数组大小为1万到20万区间,性能高于Thrust算法库。对于Batch normalization算法,以resnet-50网络为例,128批次规模下,对于大图片性能超越公认的cuDNN算法库最快速的模式,小图片性能略低于算法库,但是可以寻求更好的并行优化策略。对于其产能,ParaC版本的代码行数远低于手工版CUDA,并且因为OPI制导提供了调优接口,大大的减少了开发人员调优的工作量。
其他文献
随着移动通信及无线网络等信息技术的快速发展,出现了很多编码端资源受限的视频应用场景,对视频编码方案提出了新的要求,传统的视频编码方案由于编码复杂度高等原因不能满足
通常情况下,盐酸小檗碱(BCl)的存在形式为无水物、一水合物、二水合物以及四水合物,盐酸小檗碱在室温下储存或胶囊制作过程中,由于湿度的变化,易吸收水分发生相变,从而改变固
学位
多智能体系统的协同控制在无人驾驶、未来自主作战、交通运输等诸多领域都有着广泛的应用,其最基本的问题之一是一致性理论。目前,对于一致性问题,还存在着诸多课题值得进一
低轨卫星网络具有传播时延较小、发射功率较低以及对终端要求较低等诸多优点,已成为当前通信领域中的研究热点。然而,网络中用户数量急剧增加以及网络服务需求的多样化使得合
近年来,多智能体系统的协同控制已经受到了广大学者的关注。而一致性问题是多智能体系统的协同控制中一个极为重要和基本的问题,它在许多领域都有着广泛的应用。本文围绕分数
在现代生活中,由于越来越多的用户享受智能家居带来的便捷服务,网络节点数量的不断增多导致无序争夺资源的问题已逐渐受到人们的关注。如何缓解信道拥挤,提高网络信息的传输
进入21世纪,随着日益加快的城市化进程,环境破坏和能源短缺成为全球性的社会热点问题,世界各国都在开展积极的行动,致力于节约能源资源、减少温室气体排放。我国北方地区,城
随着下一代通信技术的飞速发展,作为5G关键技术的大规模MIMO技术由于其超大的系统容量以及高能效的特性受到了广泛的关注。然而,由于相干时间有限,不同小区复用相同导频序列
目的:通过总结国内外文献报告的自2002年-2018年12月明确诊断为急性纤维素性机化性肺炎(AFOP)的患者临床资料,通过对比分析,加强对急性纤维素性机化性肺炎的认识,减少误诊、漏诊,并尝试从中医角度认识该病。方法:釆用回顾性研究方法,利用知网和Pubmed搜索明确诊断为急性纤维素性机化性肺炎的病例,记录患者的年龄、性别、临床症状体征、实验室检查、血气分析、影像学资料、药物治疗及转归等。结果:共