深度学习模型加速与嵌入式实现

来源 :江南大学 | 被引量 : 0次 | 上传用户:kaffee0929
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
深度学习图像处理技术是如今最受学术界、工业界关注的技术之一,对各种复杂的图像任务都有良好表现。但是一般的深度学习模型因为计算耗时长的特点,无法直接部署到嵌入式终端设备中,尤其无法应用在需要实时响应的场景中。如何在保证精度可靠性的情况下提高模型推理速度对促进深度学习图像处理技术的广泛应用具有重要意义。本文针对模型推理加速方法展开了详细深入的研究。针对深度学习模型在嵌入式设备上推理过程耗时过长的问题,在传统数据驱动型通道重要性评价方式的基础上,提出了基于灰色关联分析的深度学习模型通道裁剪方法。基于灰色关联分析法依次将每个通道作为参考序列计算获得各通道相对于该层其他通道的平均关联程度的量化值,通道的重要程度与该值的大小成反比,即量化值越大,参考序列提取的特征与其他通道越相似,参考序列对应的卷积核通道重要程度越低,在裁剪过程中可优先裁剪。实验表明,该方法将VGG模型在嵌入式设备上的单次推理时间从266ms降低为95ms,且精度只降低1.9%。针对单精度模型推理存在加速上限的问题,在传统线性量化的基础之上,提出了一种基于KL散度的最佳量化边界选取方法,并使用ADMM对模型权值参数进行量化。利用KL散度良好的表示两个分布之间信息差异的能力,在整体数值表示宽度和单一数值表示精度上权衡折中,选取量化前后信息损失最小的作为最佳量化阈值,最大程度保持量化后的模型精度。同时采用ADMM方法将模型权重量化映射问题转换成优化问题,通过参数量化前后差值的L2范数作为损失值,利用ADMM交替更新量化系数和包含量化系数的量化函数值,损失值最终趋于收敛时对应的量化系数即为最佳量化系数。实验表明,该方法将VGG模型在嵌入式设备上的单次推理时间从266ms降低为110ms,精度只降低4.6%。为搭建基于深度学习瑕疵检测算法的嵌入式设备系统,利用Nvidia Jetson TX2嵌入式计算板卡和DALSA线阵相机作为硬件,以MobileNet作为骨干网络的YOLO V3算法作为瑕疵检测算法。模拟实际生产环境下对木材板条进行实时在线瑕疵检测。实验表明,进行模型通道裁剪后,在保证0.91的mAP精度的情况下,检测时间从92ms降低为57ms。将模型进一步8比特量化后,在精度mAP为0.85的情况下,检测时间仅为25ms。0.85的mAP和每秒40帧的检测速度可以达满足木材生产现场瑕疵检测环节的精度要求和速度要求。结果验证了本文方法在面对嵌入式设备部署高速木材瑕疵检测系统时具有一定的可行性。
其他文献
我国属于能源大国,但人均占有量偏少;我国幅员辽阔,森林、水域总面积大,但可居住范围内的环境污染严重。随着经济发展与社会进步,能源短缺与环境污染现象越来越严重,寻找可替
随着半导体激光器的不断发展,人们对于大功率激光器的需求越来越紧迫。经过了几十年的发展,大功率半导体激光器已经取得了突破性的进展,输出功率和光电转换效率都得到了极大
麻花钻螺旋槽的加工历来沿用包络法,即已知沟槽轮廓,由包络方程计算砂轮廓形,它的缺点是砂轮成形面复杂且唯一。显然,该方法不适应制造业对槽形精确而多样的要求。本文探索用
随着计算机科学、传感器技术的迅速发展,室内服务机器人在人们的生活工作中占有越来越多的位置。多传感器融合导航及定位技术凭借其卓越的性能和广泛应用的场景,在许多定位技
全电AMT(电控机械式自动变速器)是在传统定轴式机械变速器(MT)基础上增加由电机驱动的离合器执行器和选换挡执行器而成的,具有成本低、结构简单、维修方便、市场潜力大等优点
随着我国高速公路建设的进一步发展,部分公路桥梁线路经不得不经过岩溶区,导致桥梁基础将会设置在岩溶顶板之上。由于岩溶地区水文地质条件十分复杂,影响因素众多,下伏溶洞的
经过改革开放40多年的发展,中国经济已成为世界第二大经济体。但伴随着经济的飞速发展,我国城市发展中存在的较为严重的资源浪费、环境污染等问题也在不断显现。习近平同志在
为缓解水资源压力,我国政府出台了大量政策来推广再生水。然而纵观各地,再生水回用只取得了部分成效,总体仍处于难以推广的状态。论文围绕着“造成再生水推广难的原因是什么?
城市地下管网探测与管网地图构建是城市发展建设过程中的重要工作。探地雷达(Ground Penetrating Radar,GPR)是一种广泛使用的地下管道探测工具。通过与GPS等传感器相连接,在
自石墨烯问世以来,得到了广泛关注。石墨烯具有优异的电化学性能,并广泛应用在电化学领域。本文利用氧化石墨烯海绵结构以及具有类石墨烯结构的碳化钛来分别修饰电极,构建电