【摘 要】
:
由于深度神经网络在图像识别、语音识别、自然语言处理等领域的成功,已经有越来越多的研究学者和工业界人员投入到深度学习的研究当中。而深度神经网络拥有成万上亿的参数,训练一个性能优良的深度神经网络模型需要耗费很长的时间。最近十几年来,图形处理器GPU得到了迅速的发展,如NVIDIA生产的V100,GPU凭借着强大的并行计算能力,是现在主流CPU计算性能的十多倍。同时在CUDA统一计算框架上,NVIDIA
论文部分内容阅读
由于深度神经网络在图像识别、语音识别、自然语言处理等领域的成功,已经有越来越多的研究学者和工业界人员投入到深度学习的研究当中。而深度神经网络拥有成万上亿的参数,训练一个性能优良的深度神经网络模型需要耗费很长的时间。最近十几年来,图形处理器GPU得到了迅速的发展,如NVIDIA生产的V100,GPU凭借着强大的并行计算能力,是现在主流CPU计算性能的十多倍。同时在CUDA统一计算框架上,NVIDIA等公司和一众研究者在GPU上的并行加速研究工作,使得深度神经网络的训练时间大大减少。尽管这样,神经网络计算的时间仍然较长,需要研究者在GPU平台上对其进行进一步优化。在常见的卷积神经网络中,张量卷积操作耗时占其90%以上,所以张量卷积一直是神经网络计算优化的重点。本文经过对现有卷积并行加速算法的深入研究过后,在将卷积计算展开成矩阵乘法的基础上,提出了改进后的基于GPU平台的卷积加速方案,并在GPU上进行计算机体系结构层次上的深度优化,进一步提高了张量卷积在GPU上的计算效率。本文的主要工作如下:1)分析了深度神经网络的网络结构以及计算特点,并重点研究和分析张量卷积的计算特点,根据其权重共享以及稀疏连接的特性,对卷积的计算过程进行了详细的推导。同时,深入研究了GPU硬件体系结构、存储器层次体系和其执行模型。于此之外,还对CUDA统一计算框架进行了重点研究,对其编程模型,各个层次的存储器访存特性,进行了详细的描述。2)基于GPU平台,我们采用将卷积展开成矩阵乘法计算的思想,设计张量卷积算法。并将卷积张量进行旋转,使其在全局存储器的访问满足合并访存条件,从而提高访问效率。结合对GPU硬件体系结构的理解,对算法实现进行深度优化,包括SASS汇编层次的优化。3)通过理论分析,给出我们卷积计算方案的性能峰值上限,从而指导我们算法的优化空间。并在最后,将本文的张量卷积实现,与cu DNN的实现以及之前的理论性能峰值上限进行对比,本文的卷积计算方案十分接近理论峰值,适用于大批量场景下,2×2到7×7的卷积核大小的卷积加速场景。并且在有些场景下,相对于cu DNN获得了2倍的加速比,证明了本文提出的张量卷积计算方案存在一定的优势。
其他文献
我国正处于推行新型城镇化、实现全面小康和奋力开创现代化建设的关键时期,这为我国中小城市的发展带来了重要契机。随着新消费时代的来临,消费市场业态和城乡消费结构的持续优化,将进一步推动中小城市中心的发展与转型。当前,对中小城市中心的发展规划缺乏相对完善的科学评估和成熟的研究方法。为此,顺应城市中心的发展规律与发展新要求,运用新兴数据方法量化评估和研究构建城市中心的发展模型,对于科学引导中小城市中心的持
当今世界正处于指数级扩张的发展进程,城市人口的大幅增长带来规模增益的同时,也带来了多方面的全球性挑战。面对城市的巨大转变期,城市人口的空间分布研究随着对城市理解的不断深化而推陈出新。在此进程中计算机科学的人工智能技术介入规划领域,为各方面研究提供了强有力的分析工具。城市人口分布问题的研究从静态人口转向动态人流,从宏观粗颗粒度转向微观细颗粒度,从简单函数拟合转向机器学习与预测。在此背景下,本文在总结
现代无线通信系统硬件主要由数字基带模块、数模混合信号模块、射频前端模块以及天线模块这四部分组成。其中射频电路系统与天线通常是各自独立的,分别基于模拟射频电路理论以及电磁场天线理论仿真设计,然后都匹配到传统50欧姆集成。但是随着射频通信技术不断发展,天线与射频电路之间的集成方式也在不断进步,以满足更高频段与更高性能要求。目前CMOS工艺因其成本低、集成度高等优点广泛用于射频电路芯片设计。为更好实现射
人离不开水,但愈发密集的城市建设,使城市的发展与城市水系出现了矛盾,道路、建筑等占据了城市水系的空间,致使旱涝纷至沓来。虽然城市水系传统的灌溉、运输等功能已逐渐弱化,但在打造生态宜居城市的背景下,城市水系更为突出的作用表现在生态功能与景观价值上,因而重新关注城市水系的生存空间有重要的现实意义。当前国内尚未有在城市密集区实施流域水系恢复的先例,但与发达国家的城市进程对比,恢复城市中的重要水系是未来城
燃烧锅炉作为能源行业的复杂大型能源转换设备,具有复杂多变的燃烧过程,且参数间存在繁琐的非线性关系,难以通过分析其燃烧机理对其建立精准模型。如何挖掘锅炉历史数据中有用的信息,进而对锅炉提供优化操作指导,是工业大数据时代供热锅炉优化指导的重要思路。本文将机器学习的思想应用到锅炉燃烧系统上,针对锅炉燃烧系统工况的特征研究并改进了密度峰值聚类算法用于锅炉工况的划分,并建立了分类网络与最小二乘支持向量机结合
大跨桥梁的正交异性桥面板由于构造复杂、焊缝密集、内部缺陷众多和应力集中等问题显著,U肋-顶板和U肋-横隔板焊缝部位易产生疲劳裂纹。在车辆轮载的反复作用下,会加速结构疲劳破坏。本文在总结国内外正交异性钢桥面板疲劳裂纹研究的基础上,在线弹性断裂力学框架内,建立包含钢箱梁典型焊接细节处初始疲劳裂纹的桥梁多尺度有限元模型,基于扩展有限元方法研究裂纹尖端的应力特征和应力强度因子影响线,获得疲劳载荷最不利加载
在我国当前的能源结构中,煤的重要地位在较长时间内不会发生根本改变。燃煤电厂是我国煤炭消耗的主体,这也使燃煤电厂成为了我国CO2排放量最多,排放地点最集中的工业场所。改造燃煤电厂也成为了我国控制CO2排放总量最重要的一环。富氧燃烧以其技术风险低,易规模化等优势,被认为是目前最可能大规模推广及商业化应用的燃煤电厂碳捕集技术之一。其中增压富氧燃烧针对常压富氧燃烧的部分不足进行了改进,能够更好地回收烟气中
C/C复合材料作为一种性能优良的材料,具有耐高温、密度低、比强度高、韧性好等优点,目前已被广泛应用于众多领域。但由于其纤维种类及加工工艺等原因,C/C复合材料的力学性能呈现出较大的离散性,严重制约了工程结构的高可靠性设计。随着工程中对结构安全性能要求的日益提高,按常规安全系数法设计的结构已经无法满足实际工程对于结构可靠度的要求。目前国内外研究大多关注静态载荷下结构的强度可靠度评估,缺乏考虑整个结构
大型燃煤电厂基本均采用湿法石灰石烟气脱硫技术,然而其脱硫工艺流程复杂。脱硫系统属于典型的多变量和大迟延被控对象,采用PID控制很难取得满意的控制效果。因此通过建立脱硫系统的动态数学模型,掌握脱硫系统的动态特性和回路间的耦合关系,并据此研究脱硫系统的先进控制策略,对于有效改善脱硫系统的调节品质,提高脱硫效率,优化运行方式都具有重要意义。本文研究脱硫系统的多变量扰动抑制预测控制方法,并进行仿真验证与应
作为一种具有巨大效率潜力和广泛应用前景的新型能量转换方式,超临界二氧化碳(supercritical carbon dioxide,sCO2)动力循环可获得更具竞争力的循环效率,并且可适用于多种热源,包括传统化石能源、核能、余热回收、可再生能源等。sCO2循环发电技术应用于燃煤发电领域,可以实现化石能源的低碳、清洁利用,对降低碳排放、应对气候变化挑战具有重要意义。结合我国能源现状,本文主要研究面向