面向移动端的高通量异构卷积神经网络推理系统优化设计与研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:guxingyiren
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着人工智能的飞速发展,其广泛应用于工业等各个领域,但是由于人工智能的很多技术尚未成熟,在很多方面仍然有许多改进的空间。卷积神经网络作为人工智能的核心部分,其起源于20世纪60年代,当时科学家们正在研究猫的大脑皮层,在研究过程中发现卷积权重的共享和连接节点的减少,能够大大减少了神经反馈网络的复杂性。然而,由于硬件的局限性和有效的优化算法的缺乏,这项技术并没有得到较好的开发。随着神经网络的广泛应用尤其是在模型部署变得越来越重要,但是由于神经网络的计算量大、功耗高,在当前已有的大多数移动设备中部署情况较差,并且目前的方法都是采取损失精度为代价来提升算力。所以合理利用目前已有的中央处理单元(Central Processing Unit,CPU)、图形处理单元(Graphics Processing Unit,GPU)、神经网络处理单元(Neural Network Processing Unit,NPU)等处理单元,在不损失精度的情况下去提升神经网络的运行速度,将会大大提升神经网络在移动端的部署能力。本文的主要研究和成果如下:论文基于瑞芯微电子RK3399Pro平台,完成了一款面向移动端的高通量异构卷积神经网络推理系统的优化设计与仿真验证,该平台的主要资源包括:主频1.8GHz的ARM双核Cortex-A72+四核Cortex-A53的大小核处理器、Mali-T860MP4四核图形处理器及AI神经网络处理器NPU,可以根据不同方案进行处理单元的调用。论文在开放运算语言(Open Computing Language,Open CL)异构并行计算框架与Tensor Flow深度学习框架内,设计完成了两种模型推理加速方案与仿真验证。重点针对Le Net-5手写数字识别网络进行部署分析,做了对CPU单独部署、CPU+GPU异构、CPU+NPU异构以及CPU+GPU+NPU异构进行了四组对比实验,最终确定了以下两种方案进行模型推理速度的优化。完成了在神经网络模型部署的硬件配置层面进行优化的并行加速方案设计与仿真验证。实现了通过调用空闲CPU和GPU,同时与NPU进行图像处理,有效提高了模型推理的吞吐量,仿真结果表明,本文设计的模型推理速度比单独NPU加速工作提升了12%,满足设计要求。完成了根据不同异构计算资源及神经网络不同层的特性将神经网络不通层匹配至最优的异构计算资源上进行计算的串行加速方案设计与仿真验证,实现了将神经网络模型中全连接层拆分出来通过CPU进行计算,网络其余部分通过NPU进行计算的加速方法,仿真结果表明,本文设计的方案比NPU单独加速推理单张输入图像的速度提升了5%,满足设计要求。
其他文献
伴随着集成电路对DC-DC变换器的智能化、可配置化以及产品设计和迭代周期的快速化要求,数字开关电源受到了广泛的关注。其环路控制通过数字方式构成,具有可配置参数,设计周期短,应用环境灵活,可实时监控工作状态的优势。数字脉宽调制(DPWM)电路是数字DC-DC控制环路的关键部分。其性能决定了DC-DC输出电压的范围、精度以及纹波大小,故高精度DPWM的实现是值得关注的设计要害。本文讨论了计数器、延迟链
随着高通量基因分型技术的发展,复杂疾病的研究重点逐渐转向对全基因组关联分析(GWAS),其中主要面向的对象是单核苷酸多态性(SNP)。SNP是指基因组上由单个核苷酸变异所引起DNA序列多态性,是人类遗传中一种最常见的可遗传变异。研究表明,人类患有的大多数疾病都与SNP有着密切的联系,可以通过对多致病因素与疾病的因果关系建模,来辅助医生对病人进行提前诊断和精准治疗。但SNP数据集通常样本量较少,信噪
21世纪以来,物联网以及大数据,云计算不断发展为嵌入式存储器尤其是SRAM的变革带来动力。移动终端的高稳定性,低功耗的需求促使着人们对更低工作电压环境下SRAM技术的研究。但低电压下最小尺寸的SRAM存储单元的读写能力迅速下降,先进工艺下的工艺波动带来的影响越来越大,常用的传统6管(Transistor,T)存储单元结构越来越不适应先进工艺下的稳定性需求。因此,论文从常用的6管存储单元结构出发,基
天地一体化网络(Space-Terrestrial Integrated Networks,STIN)是未来军民用通信网络的重要发展方向,统一的管理控制和规划是STIN的建设目标,这要求STIN具备灵活可重构的架构和极高的可靠性。由于STIN的自身特性,STIN中的可靠通信面临特殊的挑战。一方面,STIN规模庞大、结构复杂,且网络拓扑由于卫星运动而时刻发生变化,但传统网络管理运维方式静态且固化,效
在科学技术研究中,科技发展战略是一个至关重要的问题,其难点在于如何对未来科技趋势做出准确判断。现有的科技趋势判断主要由专家经验得出,主观性较强而且不够全面;此外,判断结果主要以科技咨询报告的形式呈现,且报告需要多名专家参与撰写,耗时耗力。针对科技趋势判断中的上述问题,论文对自然语言处理领域的科技文本自动生成技术开展研究,从而为专家撰写科技咨询报告提供前置支撑。本文研究内容主要有三个部分,一是构建价
伴随着通信产业和计算机视觉技术的飞速发展,无人驾驶已经成为了科学技术和实体经济相融合的典型代表,在构建汽车产业生态和促进经济发展上都扮演着举足轻重的角色。但是,受限于现有的传感器硬件水平和感知技术,无人驾驶系统的安全性还有待提高。因此,利用激光雷达点云进行精确的三维感知,对实现高级别的无人驾驶系统具有十分重要的研究价值。本文针对现有点云目标检测算法的不足之处,分别从减少信息损失和克服点云稀疏与分布
肺炎对于儿童和老人而言,是一种患病率和致死率很高的疾病。随着现代医学技术的不断提升,人们在肺炎的治疗方面取得了显著成效。肺炎的诊断是治疗前非常重要的环节,但是由于肺部其他疾病干扰、医疗数据的爆发式增长以及相关病理医生的缺乏,导致肺炎的诊断较为困难,如何做到肺炎病症“早发现,早治疗”,对于肺炎患者的治疗效果具有重要意义。随着现代医学的发展,肺部疾病的诊断更多地依赖于对医学影像的判定。而越来越庞大的数
随着5G、大数据、人工智能、物联网等高新技术产业的快速发展,存储器的集成度和性能也与日俱增,然而传统的半导体存储器在几十年的发展后已逐渐接近其物理瓶颈,高新技术产业需要速度更快性能更好的新型非易失性存储器。目前已有多种新型存储器进入研究者的视野,在这些存储器中阻变存储器凭借其结构简单、成本低、集成度高以及和传统CMOS工艺兼容性好等优点引起了业界的高度重视。而在多种阻变材料中,氮化硅材料基于其优良
阵列雷达波形设计和接收波束形成是实现目标有效探测的关键技术。MIMO雷达由于其发射分集技术,与传统相控阵雷达相比,具有系统自由度高、抗截获能力强以及多普勒分辨率好等特性,但也具有正交波形难以实现等诸多局限性。近年来将时间步进量引入传统的阵列构型之中的新型发射分集MIMO雷达受到研究人员的广泛关注。本文针对时间分集阵子阵划分技术展开进一步研究,提出了基于不同布阵的子阵划分方法以及基于扩展Barker
安全芯片作为信息系统的组成部分之一,广泛应用于金融、军事、银行等领域,与我们的生活息息相关,确保数据在传输过程中的安全至关重要。而且随着计算机技术的快速发展,中央处理器CPU与主存储器之间的速度“存储墙”问题愈加严重,严重影响了微处理器的性能,高速缓存Cache技术是为了解决这一速度匹配失衡问题而采用的一项关键技术。在安全SOC芯片中,CPU对主存的访问一方面需要Cache确保高效率数据读取,另一