【摘 要】
:
卷积神经网络是深度学习算法中一个重要的研究分支,已经在智慧医疗和智能门禁等应用中取得巨大成功。随着各行各业智能化革新的推进和深化,在智能安防、自动驾驶等高速AIo T应用的终端设备上实现端侧智能计算成为大势所趋。如何在成本和功耗受限的物端设备上实现高速卷积神经网络推理成为亟待解决的难题。研究卷积神经网络轻量化算法和设计突破冯式架构的卷积神经网络专用加速器是实现低成本高速卷积神经网络端侧计算的关键方
论文部分内容阅读
卷积神经网络是深度学习算法中一个重要的研究分支,已经在智慧医疗和智能门禁等应用中取得巨大成功。随着各行各业智能化革新的推进和深化,在智能安防、自动驾驶等高速AIo T应用的终端设备上实现端侧智能计算成为大势所趋。如何在成本和功耗受限的物端设备上实现高速卷积神经网络推理成为亟待解决的难题。研究卷积神经网络轻量化算法和设计突破冯式架构的卷积神经网络专用加速器是实现低成本高速卷积神经网络端侧计算的关键方法。因此,论文从卷积神经网络模型轻量化、卷积神经网络高效计算架构设计和专用计算电路设计三个方面展开协同研究,旨在设计可用于AIo T的轻量级卷积神经网络加速器。论文面向边缘端嵌入式设备实现高速低成本卷积神经网络端侧计算,调研了卷积神经网络轻量化算法及卷积神经网络专用加速器设计的相关工作。论文首先对卷积神经网络进行优化,包括模型压缩和算子优化。在此基础上,论文提出了高效的卷积神经网络加速器架构以及计算电路,最终在FPGA上完成了卷积神经网络加速器的测试与验证。论文的创新点有:(1)针对物端对于卷积神经网络低计算量和参数量的需求,论文基于量化感知训练技术构建低复杂度的卷积神经网络,并面向硬件优化计算复杂的算子;(2)针对物端设备低成本高速度实现卷积神经网络计算的需求,论文设计了近存算的层间流水架构以及多种算子的专用计算电路,从而提高加速器吞吐量和硬件计算效率。论文面向物端优化卷积神经网络模型的参数量约为3.4MB,可以在Image Net数据集和CIFAR-10数据集下达到64.3%和86.4%的Top-1准确率。论文设计的卷积神经网络加速器仅消耗了224个乘法器,功耗约为6.64W。经测试,该卷积神经网络加速器在200MHz的系统时钟下,以224×224分辨率的彩色图像作为输入,可以实现204帧/秒的高速处理。基于所设计的卷积神经网络加速器,论文实现了人脸识别应用,识别率为97.3%。
其他文献
基于高双折射光子晶体光纤的压力传感器具有灵敏度高,尺寸小,应用领域广等优良特性,在压力传感领域有着巨大的研究价值。本文基于全矢量有限元法,设计了三种不同的高双折射光子晶体光纤压力传感结构,并对其特性进行理论分析研究。主要工作如下:(1)设计一种椭圆边孔的高双折射光子晶体光纤压力传感器。在X和Y方向上分别设计两种相互对称的椭圆形边孔,包层空气孔呈六边形周期排列,选用聚碳酸酯作为纤芯填充材料,并在纤芯
5G时代新兴产业的兴起,如无人驾驶等有严格的实时性要求。信息年龄能在接收端联合表征所有已接受数据信息时效,被学术届广泛用于刻画信息新鲜度。在无线通信系统中,带宽资源通常是受限的。多个信源共享同一个传输资源时,服务资源的分配会极大地影响系统的时效性。因此,如何在有限的服务资源限制下合理的分配服务资源提高系统的实时性是当前亟待解决的问题。本文聚焦在有限带宽资源条件下研究双流无线通信系统的时效分析与优化
无人机充当空中基站的无线通信网络具有快速部署、灵活的重新定位和良好的可视距传播路径等优势,引入波束赋形技术后,无人机除了凭借自身灵活机动性来寻找合适的信道环境,还可以根据需要形成指定方向的波束来增强通信性能,这大大提高了无人机辅助无线通信的应用潜力。本文重点研究多波束无人机协作通信的资源分配问题,目标是在满足用户通信需求下最少化无人机数量,最小化网络总功耗以及均衡无人机间负载。本文将该问题建模为一
手背静脉穿刺常被医护人员作为抽血和输液等辅助医学治疗手段之一,但是静脉穿刺过程中,经常会受患者手背脂肪较厚,肤色较暗等因素的影响,出现穿刺失败的情况,因此研制出一套能够清晰成像并能够原位投影的近红外静脉显像系统和投影校正算法具有非常重要的现实意义。本文基于特定波长近红外光照下静脉成像的原理,完成了一体化近红外血管显像投影装置的结构设计和搭建,该装置实现了图像采集、图像处理、图像投影及投影校正功能,
随着无线通信技术向着高质量、高速率、高集成、多频段、多标准和宽频带的通信方向发展,对无线通信系统射频前端的天线提出了更高的性能要求。宽带平面滤波天线不仅可以很好的满足上述需求,而且还能减少无线通信系统中天线的数量,实现系统的小型化、多功能集成以及降低成本的目标。因此,本论文开展了针对不同应用场景下的高性能宽带平面天线的课题研究,提出并研制了四款宽带平面天线,包括高选择性宽带滤波准八木天线、具有陷波
脑电(Electroencephalogram,EEG)和功能磁共振成像(functional Magnetic Resonance Imaging,f MRI)是目前研究大脑活动的最常用的无创神经成像技术。EEG具有高时间分辨率,f MRI具有高空间分辨率。同步采集EEG和f MRI的最大优势在于将两种模态的时程完全对应起来,大脑的神经活动变化在两个模态中保持一致,从而能够实现这两种无创神经成像
高速高精度模数转换器(ADC)广泛应用于图像处理、信息存储和无线通信等领域。为了实现高速高精度,通常使用流水线型ADC—兼顾精度与速度。同时随着无线通信、宽带收发器以及数字设备的新兴应用,转换器的功耗问题成为了人们关注的核心。基于上述流水线型ADC高速与高精度的特点,同时为了实现低功耗的需求,本文采用流水线结构,在0.18μm CMOS工艺下,设计实现了一种在保持高速高精度的同时能够减小转换器功耗
近年来,全球车辆用户数量已超过十亿和涌现出各类车载服务,例如道路预警,自动驾驶和智能停车等,为车联网中计算存储资源提出了极为严苛的要求。为保证车联网中用户服务质量,将移动边缘计算引入传统车联网,即车联网边缘计算。然而,车联网边缘计算存在资源受限和硬件部署开销大的问题。为此,有学者提出将具有计算能力的停泊车辆作为边缘计算节点,辅助边缘服务器提供计算服务,从而构成一种新型网络范式—停泊车辆辅助边缘计算
移动群智感知(Mobile Crowd sensing,MCS)是近年来新兴的一种感知模式,利用智能设备内置的传感器采集大量的传感数据,感知平台实时处理以支持物联网的各类服务,其有效降低感知成本,扩大感知覆盖范围和提升感知质量,将推动物联网的发展。任务分配作为MCS的重要组成部分,合理高效的任务分配是群智感知系统能否大量应用的基石。然而,在智慧城市中,随着越来越多的应用场景需要多源异构的感知信息,
在第五代(5th Generation,5G)移动通信架构下,移动边缘计算(Mobile Edge Computing,MEC)直接从网络边缘为用户设备提供计算和存储功能,能有效降低用户设备处理任务的时延和能耗。在移动边缘计算的任务卸载过程中,由于通信资源受限以及移动设备间的干扰,导致通信开销增大;此外,卸载任务的分配不均衡会导致某些MEC服务器出现过载现象,从而影响任务执行效率。因此,对移动边缘