【摘 要】
:
随着5G和物联网技术的崛起,边缘计算和人工智能的结合逐渐成为研究热点,从而催生出了“边缘智能”。边缘计算使得计算能力更接近用户或数据源,显著减少了计算延迟和通信开销并保护了用户隐私。神经网络技术在图像识别、语音识别等领域广泛应用,效果优异。因此,在手机、相机等边缘设备上部署神经网络以完成各项推理任务已经开始普及。然而,由于环境影响导致边缘推理任务精度下降的问题、传输延迟和用户隐私的问题使得在边缘设
论文部分内容阅读
随着5G和物联网技术的崛起,边缘计算和人工智能的结合逐渐成为研究热点,从而催生出了“边缘智能”。边缘计算使得计算能力更接近用户或数据源,显著减少了计算延迟和通信开销并保护了用户隐私。神经网络技术在图像识别、语音识别等领域广泛应用,效果优异。因此,在手机、相机等边缘设备上部署神经网络以完成各项推理任务已经开始普及。然而,由于环境影响导致边缘推理任务精度下降的问题、传输延迟和用户隐私的问题使得在边缘设备上进行神经网络训练的需求变得迫切。解决这一问题的方法就是在边缘设备上对神经网络进行重训练。在边缘进行神经网络训练的挑战在于,边缘设备通常具有严格的功耗和片上资源限制。并且训练比推理更加复杂,计算量更大,所需存储更多。作为第二代神经网络的卷积神经网络和第三代神经网络脉冲神经网络多被广泛应用于各类识别任务且表现优异。它们各有特点。卷积神经网络能够完成较为复杂的识别任务,如图像分类中、关键点检测和实例分割等。但是其计算量和存储开销都比较大。因此在边缘只能支持轻量级的网络训练。与之相比,脉冲神经网络的计算量和存储开销都比较小。但是它目前暂时缺乏普遍高效的学习算法。因而其表现略逊于卷积神经网络。两种网络各自有其可取之处。本文主要针对卷积神经网络和脉冲神经网络训练中不同计算需求和特点,提出了对应的加速器体系结构设计、实现和存储优化方法,以便将其训练部署于边缘计算场景下。本文主要贡献如下:1)面向卷积神经网络片上训练的加速器体系结构设计与实现。针对具有计算密集型特点的卷积神经网络训练,本文提出使用二维脉动阵列来支持训练的前向传播和反向传播中的卷积和矩阵乘运算;基于硬件友好的范围批处理归一化算法,本文提出了批处理归一化阵列来支持批处理归一化计算并加速训练的收敛速度;针对反向传播算法,本文提出了反向传播引擎来支持训练反向传播中误差计算、梯度计算和权值更新。除此之外,本文还提出了脉动阵列与批处理归一化阵列之间的协同机制优化方法,进一步减少了硬件实现开销并提升了计算效率。2)面向液体状态机片上训练的类脑处理器体系结构设计与实现。针对液体状态机这种脉冲神经网络的计算特点,本文提出了一种采用移位寄存器进行脉冲发送的类脑处理器。针对处理器需要传输大量初始化数据的问题,本文提出了压缩传输,解压缩使用的方法,以加快初始化过程,同时保证数据的准确性。除此之外,基于对液体状态机在时间上的稀疏性的特性分析,本文提出了跳零机制这一优化方法来进一步提升加速器的处理性能。3)面向液体状态机的类脑处理器片上存储压缩机制设计与实现。基于对液体状态机鲁棒性和空间稀疏性的特性分析,本文提出了一种压缩稀疏组相联缓存的有损存储压缩方式。该方式能够在不降低网络精度、降低处理器性能很小的条件下,实现网络中权值存储的压缩,从而降低处理器功耗。本文提出的卷积神经网络片上训练加速器在FPGA ZYNQ-Z1上实现。实验表明,其功耗为0.346W,工作频率为50MHz。与CPU I5-7500相比,它能带来3.3×的性能提升和8.9×的能效提升。本文提出的液体状态机片上训练类脑处理器使用ASIC 40nm工艺实现。其功耗为4.9W,工作频率为400MHz,芯片面积为18.49mm~2。与CPU I7-7700H相比,在MNIST,N-MNIST,FSDD数据集上的训练能达到80.7×-91.3×的性能提升。除此之外,使用跳零机制比不使用带来5.23×-5.48×的性能提升。本文提出的采用压缩稀疏组相联缓冲这种压缩方式,在不同的权值位宽下,可以为面向液体状态机的类脑处理器带来14%-55%的存储削减和5%-46%的功耗降低。本文提出的两款加速器设计分别支持卷积神经网络和脉冲神经网络的片上训练,因此都可以应用于边缘计算场景,为神经网络的训练提供底层硬件支撑。
其他文献
陶瓷复合装甲在轻型装甲中得到广泛应用,但传统的陶瓷/背板层式复合装甲存在抗弹相对薄弱区、抗二次打击性能和整体性较差等缺陷,因此,研究抗多发打击性能优、整体性好的陶瓷复合装甲具有重要的理论意义和工程价值。本文通过压力浸渗法制备了一种非密堆式氧化铝陶瓷球增强铝基复合靶板,并对不同结构复合靶板进行抗12.7 mm穿甲燃烧弹侵彻的弹道试验和数值模拟分析。主要工作和结论如下:1、基于“贝壳仿生”软硬交替的增
作为习近平新时代中国特色社会主义思想的重要内容,铸牢中华民族共同体意识教育已走向常态化和系统化。在高校课程体系中,“大学语文”对于铸牢中华民族共同体意识教育有着天然优势。文字、文学、文化是课程的主要内容,国家通用语言文字、文学艺术、文化认同都是铸牢中华民族共同体意识的媒介和载体。铸牢中华民族共同体意识是“大学语文”落实立德树人根本任务的重要组成,也是课程高质量发展的内在要求。基于目前中华民族共同体
近年来,新技术的迅速发展导致数据规模的空前增长。机器学习(Machine Learning)算法正越来越多地用于分析数据集和建立决策系统,以此去解决一些因其复杂性而导致算法解决方案不可行的问题。比如自动驾驶汽车,语音识别或预测消费者行为(推荐系统)等等。复杂的机器学习模型以及更大规模的数据集,使得其在单机下的模型训练时间增加,甚至于无法进行训练。使用分布式系统的强大算力便理所当然成为一种直接,简单
基于2010—2020年67个经济体的面板数据,运用制度理论和有效性理论逻辑,考察营商环境对创业水平的作用机理,并总结研究结论及政策启示。研究发现,营商环境与创业水平显著正相关;在营商环境的具体指标中,开办企业指标与创业水平的正向影响最显著;开办企业指标对不同收入水平国家的创业水平均具有显著效果,在中等收入国家中,两者的正相关性最显著。
区块链因其具备的优异特性成为全球研究的热点,凭借主体对等、公开透明、安全通信、难以篡改和多方公示等特性,对物联网体系的发展产生重要影响。但是,区块链与物联网融合存在难以解决的三点问题。一是物联网终端的运算能力有限,融合区块链技术的终端设备很难满足高可扩展性、高数据量、低计算时延等特性的要求;二是为适应物联网多域环境,区块链需要在底层适配多域物联网环境并提供切实可行的跨域认证方案;三是加入物联网的用
开放域问答旨在回答来自维基百科或网页等大型语料库的问题,是自然语言处理中一个具有挑战性的任务。由于开放域问答系统需要处理的海量的数据,对硬件的要求较为苛刻,现有的开放域问答系统都需要用到大量的计算资源和存储资源。如何减少开放域问答系统的资源消耗成为了一个严峻的挑战。本文基于深度学习神经网络模型,对基于开放域问答检索任务的优化技术进行了研究,包含两方面的贡献:第一点,针对开放域问答段落检索任务面临的
导航定位是无人车完成各项任务的基础。目前无人车的导航定位大多依赖卫星信号或者高精度地图。然而前者受周边环境的影响较大,后者则因为需要维护一份高精度地图而使得成本较高。与之形成鲜明对比的,是人类在既不需要卫星信号,也不需要高精度地图的条件下,能实现绝大多数条件下的自主导航,同时还兼具鲁棒性。而在人类导航的过程中,对路口的识别占据非常重要的地位。事实上,人类导航可以总结为两种模式的切换:一种模式是还未
随着现代化战争的不断变革,当前的作战样式不断改进,战场环境日趋透明化,夺取信息的主动权是决胜战争关键因素。无人车执行巡逻任务在战场侦察和情报获取等方面具有广泛的应用。如何将指挥员的指令传达给无人车,如何预置巡逻场站位置以及规划巡逻路径是执行巡逻任务的关键步骤。本文以无人车执行巡逻任务为背景,以博弈和规划理论知识为基础,围绕巡逻过程中的三个阶段进行分析,从指挥员指令下达,到预置选址与嵌套路径规划问题
计算机技术在人类生活中发挥着举足轻重的作用,但同时由于软件出错给人类造成不可挽回的损失的例子不胜枚举,因此保障软件安全可靠的运行是一项迫切且持久的研究,软件测试是保障软件可靠运行的重点。符号执行技术是目前最具有发展前景的软件测试技术之一,但仍面临着许多挑战。约束求解是符号执行技术在发展过程中面临的主要瓶颈之一。由于对约束求解器的频繁调用及搜集到的路径约束难以求解,导致约束求解占据了符号执行的大部分
近年来,高光谱图像分类成为一个研究热点。与传统的黑白双通道图像和R、G、B三通道图像不同,高光谱图像在光谱维度上有多个通道,每个通道捕获特定波长的光。因此,高光谱图像数据集通常是三维的,包括图像的长、宽以及光谱维度的高。在实际应用当中,像素级分类(pixel-wise classification)技术是重要的核心环节。像素级分类是利用相邻像素的空间相关性和光谱信息的特征,对图像中的每个像素点所对