【摘 要】
:
随着深度学习算法在计算机视觉、自然语言处理等领域获得极佳的效果,被广泛应用各行业,为国民经济带来了巨大效益。随着业务需求剧增,最初基于CPU和GPU的深度学习计算平台,暴露出功耗高、延时大等缺点越来越显著。FPGA作为一种新兴的加速硬件,拥有大量可编程逻辑资源,依靠低功耗、延时小、可重配置等优点,逐渐成为加速计算密集型应用的一种重要选择。本文研究了基于FPGA的深度学习在图像识别上优化与加速应用方
论文部分内容阅读
随着深度学习算法在计算机视觉、自然语言处理等领域获得极佳的效果,被广泛应用各行业,为国民经济带来了巨大效益。随着业务需求剧增,最初基于CPU和GPU的深度学习计算平台,暴露出功耗高、延时大等缺点越来越显著。FPGA作为一种新兴的加速硬件,拥有大量可编程逻辑资源,依靠低功耗、延时小、可重配置等优点,逐渐成为加速计算密集型应用的一种重要选择。本文研究了基于FPGA的深度学习在图像识别上优化与加速应用方法,主要内容包含深度学习算法原理分析、深度学习模型量化原理分析与实现、高级综合工具HLS在FPGA上实现算法加速的优化技术分析及实现。本文的主要工作与贡献主要有:(1)针对深度学习算法模型参数量大、FPGA片上资源有限的问题,本文首先对深度学习算法原理分析,其次依据最前沿的量化优化方法,在精度损失较小的前提下,尽量压缩算法模型大小,并对比不同量化方法生成的量化结果。最后在量化比特位相同前提下,选用精度损失最小的方法对VGG-16模型的实现8bit定点量化。此外,针对VGG-16模型参数量过大,FPGA片上缓存资源紧缺的问题,训练出一个参数量很小的二值化的模型,用于FPGA高效使用深度学习算法实现图像识别。(2)阐述在深度学习算法推理过程中,使用FPGA计算相比CPU、GPU的优势,分析FPGA算法移植面临的挑战。详细介绍基于高级综合工具HLS的并行计算优化技术以及深度学习算法移植到FPGA上的优化方法。(3)为解决在FPGA上的并行计算性能受计算硬件资源和带宽影响严重的问题,本文依据roofline模型选取最合适的并行展开因子,并分别对VGG-16的8bit量化模型和二值化模型,使用高级综合工具HLS实现不同策略上的算法移植优化,使得在FPGA上具有最高的峰值性能。最后将本文实现的性能与CPU、GPU纵向对比,与已实现的基于FPGA的VGG-16移植模型的工程进行横向对比,可以得出基于FPGA移植优化后的深度学习模型在实际推理环节中更具有优势。
其他文献
"互联网+"时代,带来了社会变革,也给各行各业注入新的生命力。博物馆作为公共文化教育机构,在"互联网+"时代面临着新的发展契机。博物馆信息化服务通过互联网迅速发展,在不断
目的观察老年患者泌尿科外科腹腔镜术后的下肢静脉血栓预防中采用综合护理的效果。方法选取2012年1月至2015年1月泌尿外科采用腹腔镜手术治疗的老年患者150例,随机分为对照组
随着经济全球化、社会信息化的深入发展,以国家为主体的国际体系正处于前所未有的变革调整过程中。非政府组织在国际关系中发挥日益突出作用,成为外交工作中不容忽视的因素。
美国公共外交的具体实践始于两次世界大战期间,二十世纪六十年代中期,“公共外交”的概念在美国正式出现,与之相应的理论建构也逐渐开始。经过几十年的发展,公共外交已成为了
目的初步探讨射频消融犬心室流出道间隔对左心室结构与功能的影响。方法以健康实验犬为模型,射频消融心室流出道间隔处肌肉。术前经胸超声检测左心室流出道宽度、收缩期室间隔
本文以韩礼德和哈桑的语法衔接手段为理论基础,通过大学体验英语教材课后练习中翻译句子,对英语和汉语的句子进行比较,最后为大学英语翻译教学提出可行性的建议。
气举反循环技术作为一种新兴技术,在水文地质钻井、工程钻井、石油钻井中都发挥出了突出的优势,其中在石油钻井工作开展过程中应用该技术,很好地提高了石油开采的可靠性。就
补贴作为国家用以发展本国产业或吸引外国投资的主要产业政策工具之一,是政府鼓励企业或产业的建立或经营的一种财务支持。目前,中国的工业领域中,中央层面的法律补贴有出口
自2004年石墨烯被发现以来,石墨烯以其优异的物理和化学性能吸引了众多科研工作者的目光,而成为一个新的研究热点。近年来,石墨烯的理论取得了可喜的成果,石墨烯在生活中的应
法国24新闻台和CGTN都是世界性的国际媒体,二者在媒体属性和运营方面有很大的相互参照意义。而法国总统访华历来都是两国媒体广泛关注的重大事件。本文以两个媒体对马克龙访