【摘 要】
:
基于可重构处理器进行深度卷积神经网络(Deep Convolutional Nerual Network,DCNN)算法加速已经是一种广泛的技术,其中稀疏神经网络加速是研究的热点。然而,绝大多数声称拥有高算力的计算设备并不能在高效率,低延迟以及低功耗下运行神经网络算法,因此在对多样的计算场景下,神经网络加速器在效率、延迟、和功耗方面依然有很大探索空间。本文研究了稀疏神经网络硬件加速中的三项关键技术
论文部分内容阅读
基于可重构处理器进行深度卷积神经网络(Deep Convolutional Nerual Network,DCNN)算法加速已经是一种广泛的技术,其中稀疏神经网络加速是研究的热点。然而,绝大多数声称拥有高算力的计算设备并不能在高效率,低延迟以及低功耗下运行神经网络算法,因此在对多样的计算场景下,神经网络加速器在效率、延迟、和功耗方面依然有很大探索空间。本文研究了稀疏神经网络硬件加速中的三项关键技术,本文的主要贡献如下:(1)绝大多数神经网络算法的推理工作均在通用计算设备中完成,而通用计算设备并不能提供很高的能效,且无法对稀疏卷积模型提供很好的加速能力。本文设计了稀疏神经网络卷积计算的计算电路,能够对卷积核中任意位置的0值感知并减小计算量,提升能效;(2)卷积神经网络中复杂的数据读取给高延迟的片外访存过程带来了额外的压力。因为数据不连续等问题,进行片外访存时,数据读取单元往往无法充分利用带宽,严重影响了系统运行效率。本文针对卷积加速器数据搬运的真实场景,分析了带宽利用率情况,并提出了改善片外访存带宽利用率的策略;在实现方式上,我们采用基于Vitis HLS上设计了编译器优化插件,能自动识别并优化片上带宽使用情况。(3)对稀疏加速器而言,各个计算单元的同步工作会严重降低效率,在前人的工作中,通过为每个计算单元设计单独的存储器来实现异步卷积,但这将消耗大量的片上存储器资源。为解决此问题,在本文提出的加速器基础上,我们设计并实现了异步卷积下的共享特征图缓存器设计,通过哈希算法完成地址索引,解决了一组缓存器同时提供多个计算单元的地址访问冲突问题,同时共享缓存器的设计减少了数据冗余,节约了片上资源。在基于以上优化后的加速器中,我们最终在加速器中运行ResNet50推断并在Intel Arria a10 1150GX上部署,实现了497GOPS的吞吐率或1579GOPS的等效算力,且功耗仅为22瓦。
其他文献
建筑工程项目施工建设中,电气工程是重要的施工建设环节。电气工程具有精确性要求高、技术难度大等特征,基于不同的建筑工程项目规模,在电气工程安装技术的实施环节,有着不同的要求以及侧重点。文章分析了建筑工程项目中电气设备安装工作具有技术应用精确度要求高、技术实施协同力度大等基本特征。需要结合配电设备安装技术、电线管路安装技术、电缆敷设技术、防雷接地技术,对整个电气设备安装施工的流程进行有效控制,提升电气
当下人们生活水平不断提升,房建电气工程融入大众视野中,对房屋建筑电气需求愈发提高。建筑电气工程施工中,需利用大量的电气设备与线路。保证建筑供电稳定性,做好建筑电气工程施工质量极为重要,具有一定的现实意义。文章深入分析了建筑工程施工技术难点,以供参考。
长期以来,利用卫星光学遥感影像提取山林地区数字高程模型存在效率较低、精度不足等问题,近年来以ICESat-2/ATLAS光子计数探测雷达为代表的新一代星载激光雷达技术取得重大进展,为解决该问题提供了有利条件。本文在分别优化卫星遥感影像数据处理和光子点云数据处理方法基础上,提出基于线状点云与面状点云配准的联合处理算法,以提高山林地区数字高程模型的无控定位精度。论文的主要工作和创新点如下:(1)在卫星
深度卷积神经网络凭借其超越传统机器学习及信号处理算法的优良性能表现,已经成为了主流的计算机视觉技术。但由于模型参数较多,模型较为复杂,而难以部署在嵌入式设备等算力较低、资源受限的边缘计算设备上。为了减少模型大小,提高模型的计算效率,完成网络的压缩与加速,模型轻量化技术相关研究蓬勃发展,以解决深度卷积神经网络模型高效部署落地的问题。传统实现模型轻量化的方法主要有模型剪枝以及模型量化两种,而目前又新兴
苯酚广泛应用于合成纤维、涂料、树脂及制药等领域,在工业生产中不可或缺。世界上约97%的苯酚是通过三步异丙苯法生产的,但该过程能耗较高,产生有毒的中间体,并生成等量的副产物丙酮。因此,由苯直接羟基化一步法制苯酚的研究受到广泛关注。由于过氧化氢(H2O2)在氧化过程中的唯一副产物是水,作为重要的绿色氧化剂常用于该一步反应中。但因为H2O2在苛刻的反应条件下容易分解,所以其氧化过程通常局限于较温和的反应
该文运用文献资料法、逻辑分析法等方法,回顾了中国广播体操70年发展历程,并对其所蕴含的中国特色进行总结分析。70年来,广播体操先后经历了体质健康时代、全民健身时代和健康中国时代3个阶段,发展成为具有人民性、教育性、时代性等中国特色的体育活动形式。立足新时代,广播体操未来发展应聚焦健康中国,引向新发展。通过拓宽功能内涵和强化创新引领,推动多元化发展,推进可持续发展。
GPS具有全天候、大尺度、高精度、高时间分辨率等优点,是地壳形变监测重要的手段之一。过去三十年,GPS在研究中国大陆地壳形变中发挥了重要的作用。但中国大陆GPS速度场的解算中依然存在许多问题,如GPS坐标时间序列的粗差探测与剔除、周期形变估计、共模误差、大地震所导致的同震阶跃和震后形变、速度不确定性的准确估计等。这些问题会影响长期GPS速度场的准确性,对于分析地壳运动特征具有重要的影响。为了获取现
高速铁路日常巡检作业的目的是及时排查并解决列车运行过程中存在的安全隐患,进而保障列车行车安全。此项工作任务繁杂,劳动强度大。因此,自动化、智能化的高铁综合巡检系统应运而生。然而,目前现有的高铁综合巡检系统功能有限,需要不断更新迭代,扩充功能。本文针对高速铁路复杂环境,提出了高铁轨旁设备编号检测与识别模型。该模型能够实时检测高铁轨旁设备编号的磨损状态,并且对设备编号进行自动识别和记录。具体研究内容包
页岩气开采及使用技术日益成熟,丙烷生产成本极大地下降,以丙烷为原料的丙烷脱氢制丙烯生产工艺因高产品利润率而成为投资热点。现阶段已研发出种类各异的丙烷脱氢催化剂,但在实际工业生产中贵金属Pt基催化剂的使用仍占主流。降低催化剂成本以及延缓催化剂的失活一直是Pt基丙烷脱氢催化剂改进的主要方向。本论文设计开发分别含有四、六配位、四配位和六配位形式Ga的镓铝尖晶石(Ga1Alx)、镓硅分子筛(Ga1Si32
CHAMP、GRACE/GRACE-FO和GOCE等重力卫星的实施为高精度、高分辨率地球重力场模型的研制提供了海量观测数据,而不同重力场探测数据所反映重力场的波长信息有所差异,因此充分利用卫星重力和地面重力数据等数据源的不同频谱信息进行多源重力场探测数据的联合反演,并研制高精度、高分辨率的静态重力场模型具有重要意义。本文围绕多源重力场探测数据的联合反演理论与模型研制展开研究,主要包括基于GOCE卫