基于SoPC的轻量级卷积神经网络加速系统设计与实现

来源 :东南大学 | 被引量 : 0次 | 上传用户:dongwinder
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,随着人工智能技术的发展,卷积神经网络在计算机视觉领域得到了广泛应用,它在图像分类、目标检测等任务中表现优异。但卷积神经网络计算量较大,此特性使其难以直接在边缘端或移动设备上部署,因为此类平台通常算力有限,且对功耗敏感。为了使卷积神经网络在这种平台上运行,通常使用轻量级的网络模型,或使用专用的电路对其进行计算。根据这两个理念,本文提出了基于So PC平台的轻量级卷积神经网络加速器,可进行Mobile Net V2网络前向传播的计算。首先,本文分析了Mobile Net V2计算过程中的并行性。针对Mobile Net V2中不同类型的卷积,对其进行不同维度的展开,分析了不同并行策略的实现方法、效果和可行性。初步量化分析了不同的并行系数对卷积计算时间的影响,并确定了本方案中的并行系数。之后,本文实现了基于Zynq 7020的Mobile Net V2加速器系统。加速器系统分为硬件和软件两部分。硬件部分主要功能为计算网络的卷积层,由主控模块、卷积模块、DMA、参数缓存、特征图缓存和控制状态寄存器构成。在卷积模块的设计中,使用了统一的单元处理,针对不同的卷积运算采用不同的并行策略,通过改变模块中的数据通路以实现不同运算。对批量归一化运算进行优化,避免了除法和开方运算,减少了资源消耗。为了减少访问内存中网络参数带来的延迟,本文实现了基于预取机制的参数DMA和参数缓存,可将读取参数与卷积计算的过程并行。为了适应中间数据高吞吐量的特性,本文针对不同类型的中间数据设计了不同机制的片上缓存。软件部分包括基于PC的参数提取中间件和PS侧软件。中间件实现了提取Tensorflow预训练模型参数、参数定点化和数据打包的功能。PS侧软件主要功能为PL控制、全连接层计算和分类结果预测。在PS侧软件设计中,对于全连接层计算,使用了NEON单元对其并行计算。将卷积运算与全连接层计算流水线化设计,在多幅图片分类任务中,使PL和PS可以并行工作,提高了数据吞吐量。最后,本文实现了基于PC和ZC702评估板的测试平台,对加速器系统进行测试。加速器系统工作频率为150MHz,运行Mobile Net V2 0.5 96网络,数据使用16位有符号定点数。加速器系统共使用了169个DSP资源。对多幅图片的分类任务,本文的设计可实现2.2ms/张的处理速度,计算性能为16.4GOPS。
其他文献
合理的项目调度计划可以降低项目成本,减小项目工期。现实中常见的户外作业项目易受天气影响,且项目资源供应限制较多。因此,制定合理的户外项目调度计划具有挑战性。本文依据风电设备制造企业的实际需求,本文围绕风电场的建设和检修过程,拓展研究了考虑气象因素和资源限制的户外作业项目调度问题,针对不同的项目内容、阶段和目标构建并求解了不同的调度优化模型。首先,本文基于气象因素和资源限制,研究了带有时间约束的多项
为了防止大型金属罐体出现泄露或爆炸等事故,需要对其进行定期的检测和维护,由于人工检测的方式存在检测成本很高、耗时长、污染环境等缺点,因此目前迫切需要使用机器人来代替人工进行检测。本文针对这一问题,设计了一款磁吸附轮式结构的爬壁机器人本体,用来携带无损检测装置进行大型金属罐体的检测。本文所做的主要工作如下:(1)对于爬壁机器人的吸附和移动两种关键功能进行了分析,选择了轮式移动方式以及永磁体吸附的方式
恶性肿瘤是现代社会严重威胁人类健康的疾病之一。其中,肺癌的病发率及致死率都是最高的。与传统检测方式相比,通过生物标志物miRNA的检定来判别癌症病程具备精度高、操作快、成本低的特点。基于纳米材料的电化学生物传感技术的飞速发展,使得miRNA的快速、灵敏检测得以实现。本文将研究基于MoS2的纳米材料,将其引入传感器平台的构筑,研发可用于肺癌相关miRNA检测的生物传感器,并深入探讨检测机理以推动传感
近年来,搭载多自由度机械臂的移动机器人被广泛应用于反恐排爆、灾难救援、空间探索、国防军事等领域,辅助人类执行危险环境下的作业。但是多自由度机械人的全手动操控复杂,因此研究机器人自主作业系统,提高机器人的自主化与智能化程度,是机器人控制系统研究领域的热点之一。针对上述热点问题,本文研究设计了一套移动机器人自主作业系统,使机器人具备对目标物的自主抓取能力,提高了抓取成功率与速度,弥补了人工操作的不足。
环境感知是自动驾驶车辆安全可靠行驶的基础和前提,大量的研究工作以理想环境为背景,缺乏针对复杂环境下,特征不明显的低辨识目标的检测算法研究。自动驾驶车辆在真实场景下行驶的过程中不可避免地会遇到各种复杂环境,尤其是下雨、下雪天、夜晚、雾霾等环境,RGB图像上的目标可辨识度低,特征不明显,各种传感器也会受到很大的影响,此时由具有特定特征的图像数据训练得到的深度学习模型将不能很好地识别出低辨识目标,自动驾
经过数十年的发展,纳米孔技术在分子检测上有了长足的进步。但是针对精准医疗所提出的基因测序和精准治疗,传统的纳米孔技术很难获得足够多的分子信息。对此,本课题提出了两种新型的纳米孔传感系统,以DNA分子和蛋白质分子为检测媒介,以模拟和实验相结合的方法,以期获得更多的分子信息。本研究的主要内容如下所示:(1)根据分子过孔原理,搭建了用于驱动分子和检测的实验平台,用聚焦离子束刻蚀技术成功制备了20 nm~
随着经济的发展,企业对自动化发展的需求越来越迫切。在现代办公空间中,屏风办公桌以其用户友好的空间分割功效在全球范围内得到普遍应用。屏风板是屏风办公桌的重要组成部件,其侧面橡胶条的箍紧目前都是人工进行箍紧,导致人工劳动强度大,生产效率低。基于上述现状,针对国内外现阶段办公屏风板侧面橡胶条人工箍紧的问题,开发了一套自动箍紧设备。首先,在充分考虑目前合作企业的生产情况后,分析了屏风板箍紧的工艺流程,确定
随着现代机器学习与深度学习算法的发展,现有环境感知技术对理想环境中的人员、车辆等目标识别的准确率不断提升,但是,对实际很多特殊场景(例如雨天、夜晚等光线昏暗的低辨识度环境)的检测准确率却不尽如人意。因此,突破对低辨识度目标检测的精度水平,是环境感知技术实际应用的关键。低辨识度目标的特点包括:目标与周围环境的对比度较低或者目标没有明显且完整的轮廓特征或者目标像素占整张图像像素比例低于30%等。本文针
相比轮式或履带式机器人,四足机器人能够借助腿足结构在非平坦路面上实现行走,对复杂环境具有很强的适应性。这些优点使得四足机器人具备广大的潜在应用前景,尤其用于工程勘察、抢险救灾和反恐防暴等场合。本文针对四足机器人行走稳定性,从结构设计和运动规划两个方面着手,完成机器人机构设计,研究不同环境下机器人步态和位姿调整策略,分析末端运动误差并设计跟踪算法,通过相应的仿真实验对结果进行验证。主要研究工作如下:
随着汽车保有量的迅速增加,交通安全和交通拥堵成为了一个亟待解决的难题。在人工智能创新科技的不断推动下,自动驾驶关键技术突飞猛进。自动驾驶汽车排除了驾驶员因素的干扰,可以很好的解决了交通安全等问题,加之自动驾驶汽车网络的全局可控性,可以很大程度上避免交通拥堵。由于稳定且可靠的路径跟踪控制系统和自主避障控制系统是车辆实现自动驾驶的必要条件,因此本文针对自动驾驶汽车路径跟踪控制和自主避障控制问题进行了深