论文部分内容阅读
深度学习图像处理技术是如今最受学术界、工业界关注的技术之一,对各种复杂的图像任务都有良好表现。但是一般的深度学习模型因为计算耗时长的特点,无法直接部署到嵌入式终端设备中,尤其无法应用在需要实时响应的场景中。如何在保证精度可靠性的情况下提高模型推理速度对促进深度学习图像处理技术的广泛应用具有重要意义。本文针对模型推理加速方法展开了详细深入的研究。针对深度学习模型在嵌入式设备上推理过程耗时过长的问题,在传统数据驱动型通道重要性评价方式的基础上,提出了基于灰色关联分析的深度学习模型通道裁剪方法。基于灰色关联分析法依次将每个通道作为参考序列计算获得各通道相对于该层其他通道的平均关联程度的量化值,通道的重要程度与该值的大小成反比,即量化值越大,参考序列提取的特征与其他通道越相似,参考序列对应的卷积核通道重要程度越低,在裁剪过程中可优先裁剪。实验表明,该方法将VGG模型在嵌入式设备上的单次推理时间从266ms降低为95ms,且精度只降低1.9%。针对单精度模型推理存在加速上限的问题,在传统线性量化的基础之上,提出了一种基于KL散度的最佳量化边界选取方法,并使用ADMM对模型权值参数进行量化。利用KL散度良好的表示两个分布之间信息差异的能力,在整体数值表示宽度和单一数值表示精度上权衡折中,选取量化前后信息损失最小的作为最佳量化阈值,最大程度保持量化后的模型精度。同时采用ADMM方法将模型权重量化映射问题转换成优化问题,通过参数量化前后差值的L2范数作为损失值,利用ADMM交替更新量化系数和包含量化系数的量化函数值,损失值最终趋于收敛时对应的量化系数即为最佳量化系数。实验表明,该方法将VGG模型在嵌入式设备上的单次推理时间从266ms降低为110ms,精度只降低4.6%。为搭建基于深度学习瑕疵检测算法的嵌入式设备系统,利用Nvidia Jetson TX2嵌入式计算板卡和DALSA线阵相机作为硬件,以MobileNet作为骨干网络的YOLO V3算法作为瑕疵检测算法。模拟实际生产环境下对木材板条进行实时在线瑕疵检测。实验表明,进行模型通道裁剪后,在保证0.91的mAP精度的情况下,检测时间从92ms降低为57ms。将模型进一步8比特量化后,在精度mAP为0.85的情况下,检测时间仅为25ms。0.85的mAP和每秒40帧的检测速度可以达满足木材生产现场瑕疵检测环节的精度要求和速度要求。结果验证了本文方法在面对嵌入式设备部署高速木材瑕疵检测系统时具有一定的可行性。