论文部分内容阅读
随着人工智能与物联网的发展,人体动作识别在智能视频监控、智能人机交互、虚拟现实和运动分析等领域的需求日益增加。然而由于动作识别涉及多个学科且实际应用场景多变,一直是个充满挑战的研究方向。基于深度学习在图片分类任务取得的巨大成功,研究学者将其逐步应用到人体动作识别领域,但仍存在着动态特征不够高效、无法充分利用多模态信息等问题而无法实现实用化。为了充分挖掘动态特征以及利用多模态信息互补关系,本文着重研究高效的特征表达和特征融合来提升动作识别准确率。本文的主要贡献有三点:(1)基于光流有效性本质研究了一种人体轮廓特征来表征视频中的动态信息,即人和物体轮廓特征(Human–Object Contour,HOC),通过结合物体类别包含了更高阶的语义信息,从而可以充分挖掘视频中的动态逻辑信息,优化光流动态特征。(2)研究了一种高效的多模态信息融合网络,即多模态有注意力的融合网络(Attentional Multi-modal Fusion Network,AMFN)。借鉴集成学习中的层叠泛化思想,同时参考人类视觉的选择性注意力机制,结合每个视频本身特征决定不同模态应分配的注意力大小,实现了多模态信息的最大化利用。(3)嵌入式端实用化尝试。将HOC特征应用在Jetson TX2嵌入式开发板提升动作识别应用准确率,同时利用TensorRT神经网络加速引擎实现推理过程的加速,有效提升了动作识别应用的实时性。实验结果表明:(1)HOC动态特征与RGB静态特征有效互补,在超过60%的动作分类上都有提升;(2)结合HOC特征和AMFN网络,在动作识别数据集UCF101(96.0%)和HMDB51(72.2%)上取得了较佳表现;(3)在Jetson TX2嵌入式平台结合HOC特征,初步实现了动作识别应用系统,并基于TensorRT加速引擎将模型前向计算的速率由原先的27FPS提升至153FPS。综上,实验结果达到了指标要求。