【摘 要】
:
深度卷积神经网络在图像识别、目标跟踪等领域被广泛使用。在功耗和实时性有严格要求的设备上部署深度神经网络时,需要解决深度卷积神经网络计算过于密集和存储开销大的问题。因此,研究基于算法和硬件协同设计的卷积神经网络加速器有着重要的实用意义。本文总结了卷积神经网络基本结构和常用的卷积神经网络加速器优化方法。针对深度卷积神经网络参数和计算量庞大的问题,本文对网络参数进行量化处理,采用增量量化算法,量化精度为
论文部分内容阅读
深度卷积神经网络在图像识别、目标跟踪等领域被广泛使用。在功耗和实时性有严格要求的设备上部署深度神经网络时,需要解决深度卷积神经网络计算过于密集和存储开销大的问题。因此,研究基于算法和硬件协同设计的卷积神经网络加速器有着重要的实用意义。本文总结了卷积神经网络基本结构和常用的卷积神经网络加速器优化方法。针对深度卷积神经网络参数和计算量庞大的问题,本文对网络参数进行量化处理,采用增量量化算法,量化精度为5bit,利用低位宽索引数据代替权重参数,缓解了数据传输和存储的负担。量化步骤包括权重分组、量化和再训练。针对量化后网络权重数据的重复性和稀疏性,通过基于权重合并的卷积计算方式,减少了冗余的计算次数。加速器计算阵列采用脉动阵列结构,并且各模块采用参数化设计,对不同尺寸的神经网络均能起到较好的加速效果。本文设计的加速器支持不同的数据重用模式,优化了加速器数据流映射方式,减少了加速器访问存储器的能耗。量化后基于ILSVRC2012数据集测试,Alex Net的Top-1错误率仅上升0.37%,VGG-16的Top-1错误率仅上升0.51%,参数规模减少62.5%。本文基于Xilinx Virtex-7 FPGA开发板设计了基于权重合并的卷积神经网络加速器。实验测试结果表明,在150MHz的工作频率下,测试网络为Alex Net时,加速器的平均吞吐率为197.41GOPS,测试网络为VGG-16时,加速器平均吞吐率为214.71GOPS,功耗为7.1W。本文设计的基于权重合并的卷积神经网络加速器能够进行参数配置,加速不同网络,并且实时性好,功耗较低。
其他文献
随着中国制造2025战略的提出,中国正处于从大国到工业强国的重要转型时期,伴随着互联网时代浪潮,制造业对于生产设备的自动化、智能化要求越来越高。随着传感器技术、人工智能、运动控制算法等先进技术的快速发展,机器人作为代替人工作业的重要智能设备,越来越多的应用于先进制造业中,极大的提高了工业生产效率和品质。打磨作业是工业生产中必不可少的一环,本文基于我国打磨行业现状,从实际应用的角度,针对小型工件的打
近年来,虚拟现实技术的日益成熟和计算机运算性能的稳健提升,为虚拟人群仿真技术的研究与应用奠定了坚实的基础。虚拟人群仿真技术主要包括实时绘制技术、运动控制技术和行为控制技术,其中,路径规划技术为运动控制中的关键技术之一,且体现了人类的基础行为能力,路径规划技术便成为了人群仿真中的研究热点之一。然而,已有的虚拟人群路径规划方法大多以环境已知为前提条件,无法满足虚拟人群自主学习和适应不确定性环境的要求,
目前VR虚拟现实技术在室内设计领域获得广泛的应用。设计师通过VR全景漫游的方式向用户展示精心创作的室内设计方案。各大网站上都涌现了大量的VR全景方案以供用户选择。以传统的基于文本的检索方式难以在海量的方案中精确地找到业主需要的全景方案。本文将研究一种基于图像智能检索的VR全景方案匹配方法。使用深度学习技术,通过一张室内效果图,在海量的VR全景方案库中快速准确地匹配出相似的方案。论文的主要内容如下:
同时定位与制图(Simultaneous Localization and Mapping,SLAM)是移动机器人在未知环境下进行自主导航的关键技术,目前已成为国内外学者研究的热点。而回环检测作为SLAM系统的重要组成部分,可以消除移动机器人在长时间运动后位姿估计的累积误差,保证构建出的地图具有全局一致性。本文对回环检测技术中的特征提取算法和相似性度量算法进行研究。论文的主要内容如下:(1)研究了
近年来,随着自动控制技术、通讯技术和机器人技术的不断发展,机器人在人类生活中的应用越来越广泛。单个机器人在某些应用背景下,在感知范围、计算能力、抗干扰能力等方面都有着很大的缺陷。而多个机器人协同合作可以获得更大的感知范围、更高的计算能力和更好的抗干扰能力。因此,多机器人协同合作已成为机器人学发展的新方向。在多机器人协同合作问题中,多机器人编队问题是研究多机器人协同合作的基础问题,多机器人协同对抗则
得益于人工智能理论的进步和计算机硬件水平的提升,计算机视觉技术在近年来得到了快速的发展,与计算机视觉技术相关联的实际产品也逐渐走入了我们的生活。图像识别技术是计算机视觉技术的一个重要的研究领域,其根据识别场景又可分为粗粒度图像识别技术和细粒度图像识别技术。过去几年中,大部分的研究集中在粗粒度图像识别技术中,但受到实际应用场景的驱动,对细粒度图像识别技术的研究得到了越来越多的关注。相比于粗粒度图像识
目的论文选取与口腔鳞状细胞癌(OSCC)密切相关的蛋白标志物(PTM)为目标物,以PTM电化学免疫传感器面临的灵敏度较低、构型单一、固载效果差、检测复杂等问题为切入点,从生物元件固定化活性界面、信号标记物以及免疫检测模式等方面着手,建立系列灵敏度、稳定性和选择性三高的PTM电化学免疫传感新方法,为生物样本中活性分子识别及定量检测提供高效、精密、准确的方法学基础,为痕量标志物检测提供新思路。方法论文
小样本细粒度分类的应用广泛,但是现有的小样本细粒度分类算法正确率较低,分类数量也不多,限制了其实际应用。此外,由于某些任务的特殊性,例如需要生物学家在野外当场对稀有鸟类或其它生物物种进行识别,远程计算的实现难度较大。因此,小样本细粒度分类问题的硬件实现具有很重要的实际意义和广阔的发展前景。本文针对上述两个问题,在算法和FPGA两个方面进行设计和优化,并进行FPGA系统验证。在算法方面,本文通过将元
电耗、氯耗、矾耗是自来水行业制水成本的主要组成部分。其中电耗相对于其它两项而言,占到了制水成本的80%以上。如何以更优的方式来调度水泵,使得在保证安全生产的同时,能实现节能降耗的目的,是供水企业普遍面临且需要长期探索的课题。本文主要研究一泵房(也称原水泵房、取水泵房)的优化调度。通过对生产工艺、主要生产设备知识的学习、熟悉和了解,先对整个系统进行了设计,确定了以“用水高峰补水、用水低峰蓄水”为主要
近些年,随着深度学习算法的发展与硬件设备算力的提升,卷积神经网络逐渐成为计算机视觉领域高性能的代名词,在物联网与边缘计算的应用中发挥着重要的作用。然而,卷积神经网络的高性能以高密集运算及庞大参数量为代价,对卷积神经网络的终端部署带来了极大的挑战。为了深度学习技术的普及,对卷积神经网络的参数压缩及加速运行具有重要的研究价值。本文从挖掘卷积神经网络参数冗余性的角度出发,设计网络加速算法与高性能硬件加速