论文部分内容阅读
随着物联网技术的飞速发展以及嵌入式芯片处理能力的增强,人体行为检测在智能视频监控、家居安全等领域的需求日益增加。目前基于深度学习的行为检测技术虽然取得了突破性进展,但是依然存在着视频特征提取不够高效、多任务优化不充分、模型复杂难以部署到嵌入式平台等问题,需要进一步的发展和完善。
本文着重于高效的视频时空特征提取方法以及准确的多尺度检测方法的研究,并探索在嵌入式设备上的优化方案,提出了基于2D和3D混合卷积的时间特征金字塔网络( Mixed 2D and 3D Convolutional Temporal Feature Pyramid Network, MiCTFPN )。MiCTFPN算法主要由特征提取网络、时间特征金字塔网络以及分类和回归网络三个部分组成,具体如下:(1)为了高效地提取视频的时空特征,本文设计了一种端到端的基于2D和3D混合卷积的时空特征提取网络。先使用2D卷积提取视频的空间特征,再使用3D卷积将其得到的特征图融合,解决了2D卷积对输入模态要求高、3D卷积难以优化的问题,同时本文将其进行了端到端训练,增强了特征的准确性。(2)为了在多个特征尺度上对行为目标进行检测,本文设计了时间特征金字塔网络。将深层特征图上采样之后与浅层特征图融合,解决了浅层特征图语义信息弱的问题,为行为增加了全局上下文信息;(3)为了更好地优化每个子任务,本文设计了基于1D卷积的解耦合的分类和回归网络。在预测阶段,使用不同的网络来实现分类任务和回归任务,使得每个子任务都得到了充分的训练。此外,针对模型参数量大、复杂度高而难以部署到计算资源有限的嵌入式设备的问题,本文通过将3D卷积分解为2D卷积和1D卷积的方式,实现了MiCTFPN算法在嵌入式平台的部署。
实验结果表明,本文提出的MiCTFPN算法在检测精度和速度方面都达到了比较好的效果,在人体行为检测数据集THUMOS14上:(1)在NVIDIA GeForce GTX1080Ti GPU设备上,达到了37.9%的检测精度和271FPS的检测速度;(2)在Jetson TX2嵌入式设备上,达到了35.2%的检测精度和37FPS的检测速度,满足实时性的要求,进一步验证了MiCTFPN算法的高效性和实用价值。
本文着重于高效的视频时空特征提取方法以及准确的多尺度检测方法的研究,并探索在嵌入式设备上的优化方案,提出了基于2D和3D混合卷积的时间特征金字塔网络( Mixed 2D and 3D Convolutional Temporal Feature Pyramid Network, MiCTFPN )。MiCTFPN算法主要由特征提取网络、时间特征金字塔网络以及分类和回归网络三个部分组成,具体如下:(1)为了高效地提取视频的时空特征,本文设计了一种端到端的基于2D和3D混合卷积的时空特征提取网络。先使用2D卷积提取视频的空间特征,再使用3D卷积将其得到的特征图融合,解决了2D卷积对输入模态要求高、3D卷积难以优化的问题,同时本文将其进行了端到端训练,增强了特征的准确性。(2)为了在多个特征尺度上对行为目标进行检测,本文设计了时间特征金字塔网络。将深层特征图上采样之后与浅层特征图融合,解决了浅层特征图语义信息弱的问题,为行为增加了全局上下文信息;(3)为了更好地优化每个子任务,本文设计了基于1D卷积的解耦合的分类和回归网络。在预测阶段,使用不同的网络来实现分类任务和回归任务,使得每个子任务都得到了充分的训练。此外,针对模型参数量大、复杂度高而难以部署到计算资源有限的嵌入式设备的问题,本文通过将3D卷积分解为2D卷积和1D卷积的方式,实现了MiCTFPN算法在嵌入式平台的部署。
实验结果表明,本文提出的MiCTFPN算法在检测精度和速度方面都达到了比较好的效果,在人体行为检测数据集THUMOS14上:(1)在NVIDIA GeForce GTX1080Ti GPU设备上,达到了37.9%的检测精度和271FPS的检测速度;(2)在Jetson TX2嵌入式设备上,达到了35.2%的检测精度和37FPS的检测速度,满足实时性的要求,进一步验证了MiCTFPN算法的高效性和实用价值。