论文部分内容阅读
最近几年,随着深度神经网络爆发式的研究和发展,其强大的特征提取和拟合能力使其在图像识别、自然语言处理、语音识别等领域得到了广泛的应用。为了提高神经网络模型的性能,研究人员普遍会设计更深和更复杂的网络,这样会使模型的参数量和计算量大大增加,这对硬件资源(CPU,GPU内存,带宽)的要求也越来越高,成本十分昂贵。同时,将如此复杂的深度神经网络直接部署在计算能力和续航能力有限移动设备上(如手机、无人机、机器人、智能眼镜)具有很大的难度,如何应对设备存储空间和计算能力有限是其中的重大挑战。本文从提高模型的紧凑性和计算的高效性这两方面来解决该问题。本文的主要工作有:1.在主流的轻量型神经网络Mobile Net的基础上,使用Tensor-Train张量分解技术对深度可分离卷积中的1×1卷积进行压缩。提出了自适应Tensor-Train分解算法解决了寻找最优分解秩繁琐的调优问题。对于Cifar-10数据集,本文所提出模型中的参数量仅为Mobile Net 20%-30%。2.针对Tensor-Train分解算法在GPU端前向加速不明显的问题,本文在自适应Tensor-Train分解的基础上,使用较小分解维度和适中分解秩的策略,减少了模型的参数量和计算量。并使用动态规划算法寻找分解后每层网络最优的计算顺序,进一步减少了模型的计算量。3.搭建了一套针对移动端的实时目标检测网络。实验表明,相比于基于原生Moblie Net V2的SSD目标检测网络,本文方法将模型的推断速度加快了约1倍,在华为荣耀V10手机上模型每秒检测帧数从15FPS上升至约30FPS。