【摘 要】
:
通用目标检测卷积神经网络算法精度不断提升,随之而来的是计算量与参数量的爆发式增长。与之相反的是,新兴的智能交通、自动驾驶与智能安防等领域都使用嵌入式AI设备,这给卷积神经网络算法提出了新的挑战。对高性能目标检测网络进行深层次的压缩,让网络参数量大幅度降低,这在计算资源匮乏的嵌入式AI设备上部署目标检测卷积神经网络是至关重要的。昇腾NPU使用定制的达芬奇架构,如何实现快速卷积计算过程,充分发挥昇腾N
论文部分内容阅读
通用目标检测卷积神经网络算法精度不断提升,随之而来的是计算量与参数量的爆发式增长。与之相反的是,新兴的智能交通、自动驾驶与智能安防等领域都使用嵌入式AI设备,这给卷积神经网络算法提出了新的挑战。对高性能目标检测网络进行深层次的压缩,让网络参数量大幅度降低,这在计算资源匮乏的嵌入式AI设备上部署目标检测卷积神经网络是至关重要的。昇腾NPU使用定制的达芬奇架构,如何实现快速卷积计算过程,充分发挥昇腾NPU优势是车辆检测应用的关键。在常用目标检测的基础上,使用轻量特征提取网络作为骨干网,设计并训练检测精度高与参数量小的轻量级车辆检测网络。针对低精度量化前后特征分布不均问题,使用KL散度衡量量化前后信息分布差异,并校准量化映射区间。针对剪枝过程中批量归一化层中尺度参数分布广问题,使用L1正则化约束尺度参数,对网络进行稀疏化训练,提升剪枝效率。针对昇腾NPU中数据传输的字节对齐问题,设计五维数据传输格式,将卷积数据平铺,实现快速卷积计算。针对普通卷积计算过程,利用多级流水线与多核并行技术进一步增加计算速度。实验结果表明,轻量化骨干网的车辆检测实现在Center Net上获得了93%的压缩率,并仅有4.89%的精度损失。基于KL散度校准的8比特量化使YOLO v4网络模型精度损失仅0.87%,模型大小缩小四倍。稀疏后的剪枝方法在轻量化的Center Net模型下,将模型进一步压缩65%,最终车辆检测模型仅2.64MB,剪枝后检测精度几乎不变。多级流水线与多核并行加速后的Center Net在昇腾NPU上推理时间达到4.547ms每帧,远超实时性检测的速度要求。
其他文献
大脑是人体极为重要的器官。尽早诊断与治疗可以有效的减少脑部疾病带来的巨大伤害。脑组织的分割是对脑组织进行定量分析的关键步骤,其中脑脊液分割是脑组织分割中的一个重要研究课题。近年来,基于深度学习的CT图像脑脊液分割取得了较大进展,但因预测时间过长,限制了其广泛的应用和发展,因此,研究高精度且预测效率高的分割模型具有重要意义。本文提出了一种基于U-Net的脑脊液自动分割方法,即Reduce U-Net
随着计算机软件及硬件技术不断完善和成熟,以及当前影像测量市场的需求极大地促进了影像测量系统的发展。国外的影像测量系统技术发展非常成熟,并且已经商业化,然而国内的影像测量系统大多是基于国外软件接口进行二次开发。在这两个背景下,通过对影像测量系统需求的分析,实现了影像测量仪几何元素构造系统。首先介绍了开发工具和环境,Qt开发平台用来设计与用户进行数据交互的界面,Open CASCADE提供了几何元素类
随着越来越多的人从农村迁居到城市,小区的规模越发壮大,由于疏于管理防范等原因也引发了许多安全问题,越来越多的居民开始担忧小区的安全情况,因此小区的安全防控也越发显得重要。为了保护居民的生命健康和财产安全,借助目标检测等相关技术实现小区的自动化实时安全监控与报警。小区的周界检测系统是智能监控系统的一个方向,它可以实现摄像头视频流的读取和解码、人体检测、多路摄像头并行处理、危险区域标记和告警等功能。系
随着工业的发展,工厂产品测量对测量精度和效率的要求越来越高,影像测量仪作为高精度仪器,如何减小其误差、提高其精度受到行业内广泛研究。构建数学模型、利用软件完成影像测量仪误差补偿的方法以其经济、高效等特点,在行业内广泛应用。拥有精确度高、稳定性强、热膨胀系数小、耐腐蚀性好等特点的线纹尺,常用于长度测量工具中作为测量校准光学部件。利用线纹尺进行影像测量仪的定位误差补偿方法,即基于交互的误差补偿,需要人
在人工髋关节使用一段时间后,可能需要进行翻修。在含有髋关节假体的CT影像中分割出非假体部分,并对不同骨组织给予不同的标签,是翻修髋关节手术规划的需要。自动化地准确分割出临床需要的组织将对医生提供有力的辅助。鉴于深度学习在图像分割中取得的成就,采用深层卷积神经网络作为框架。在网络模型的选择上,为了避免随着深度的加深可能出现的网络退化情况,选用了带有残差机制的3D-Res Unet网络,并在该网络的扩
利用CT图像对髋关节疾病进行诊断时,需要对髋关节骨组织进行多标签分割。显然,基于深度学习的医学影像分割效果超越了传统图像分割技术,但是,该方法需要大量有标签的数据进行监督学习,而标记CT图像目标组织需要耗费相当多的人力资源。对此,设计并实现一套基于传统方法的多标签分割方法,得到接近最优的分割结果,以此为基础进行少量的人工修正,可以有效地减少人工工作量。设计的传统图像分割算法分为髋关节的粗分割和精细
I/O性能已成为高性能运算系统性能提升的瓶颈。I/O日志(trace)作为系统在运行过程中记录的I/O请求信息,已被广泛应用于I/O性能分析之中。但是由于传统trace收集工具存在着资源消耗大等缺点,制约了性能评估准确性的提升。因此,trace生成工具应运而生。另一方面,生成对抗网络作为发展最迅速的生成模型之一,已经成功应用于计算机视觉、加密与安全等领域,并且在实值序列数据的生成方面具有很大的潜力
COStream是一门高效的数据流编程语言,通过将通信与计算分离凸显出程序的高并行性,从而充分利用多核平台的性能。但在任务划分方面,COStream现有划分算法不具有普适性,划分各个阶段的界限模糊不清;在数据传输方面,编译器底层的缓冲区设计不够系统化,且COStream作为支持并行编程的语言,其线程同步机制也存在优化的空间。针对现有COStream任务划分存在的问题,将任务划分细分为两个阶段进行优
光缆是一种电信线,在架设光缆时,如果架设的光缆与原本已经架设好的电线发生交越或搭挂,这种电信线与电力线发生交越或搭挂的场景被称为三线交越。在这种场景下,即便光缆与电力线没有直接接触,但二者可能发生耦合感应,影响光缆的寿命,也可能引起强电入侵,对人身安全产生威胁。由于上述原因,发生交越的光缆部分必须加装保护套。目前,检验光缆架设规范主要由人工完成,导致检察员工作量大。从人工施工采集获得的图像中自动检
构建高质量的、大规模的数据集是机器学习取得良好效果的前提和动力。数据集的构建通常由研究人员根据实验需求进行手工标注,然而由于手工标注工作量较大、工作内容枯燥无味,往往导致标注成本过高、标注效率低下。随着机器学习领域的发展,如何提升标注效率成为亟待解决的问题。为了提升标注效率,设计并实现了一个半自动视频图像标注系统,支持对视频图像数据进行手工标注,支持调用各类视频图像处理算法预测标注结果、人工对预测