论文部分内容阅读
近年来,人机交互技术一直在不断发展,其中基于手势的人机交互方式是最自然、最直观的方式之一。手势识别和人手检测等技术是这种交互方式的关键,它们一直以来都是计算机视觉领域中的研究热点。尽管这些技术已经得到了广泛的研究,但是它们在实际应用场景中所必然会面临的复杂背景和遮挡等问题仍未得到有效的解决。深度学习是目前手势识别、人手检测等任务的主流解决方法,其在泛化能力、鲁棒性等方面比传统算法有巨大的优势。然而,深度学习模型通常会占用较多的计算资源和内存,不利于其实际应用。针对上述问题,本文主要对基于深度学习的手势识别、人手检测及其模型压缩和加速技术进行了研究。针对静态手势识别中复杂背景的问题,我们提出了一种二阶段的识别方法,其中包含了人手姿态估计算法和人手姿态分类算法。我们使用了卷积姿态机来对人手关键点进行定位,多阶段序列结构和中间监督的引入使其能够在遮挡和复杂背景等情况下也能做出准确的预测。此外,我们还对模糊高斯混合模型做了改进,并将其用于人手姿态分类,根据输入的人手位置特征将其划分到对应的手势类别中。改进后得到的分类器不仅能够准确地对目标手势进行准确的分类,还能够有效地拒绝非目标手势样本。另外,由于手势识别系统的两阶段设计,算法能够很方便地对手势类别进行扩展。在进行手势识别前,通常需要先使用人手检测算法从图片中准确检测出人手区域。为了兼顾检测算法的速度与精度,我们使用了单阶段目标检测网络YOLOv3模型用于人手检测。我们通过使用更优的预训练权重和适当的数据增强方法,有效提高了模型的检测效果,为模型的压缩和加速算法提供了一个较高的基准。为了进一步降低人手检测模型的计算资源消耗和内存占用,我们基于Network Slimming通道剪枝算法对YOLOv3网络进行模型压缩和加速。在训练阶段对BN层的γ参数施加稀疏正则约束,逐渐减少冗余通道的权重,从而实现通道剪枝。针对YOLOv3模型中的残差连接,我们提出了残差剪枝的方法,提高了通道剪枝的灵活性。另外,我们使用了自适应剪枝阈值的方法来确定剪枝通道并且对其对应BN层的β参数进行了处理,大大降低模型剪枝带来的损失。通过将卷积层和BN层进行融合,模型的推断速度进一步提高。最终,模型的体积和推断用时大幅度减少,并且能够保持检测精度几乎不变。