论文部分内容阅读
近年来,随着高清视频监控的推出,使得基于人体行为检测技术的智能监控系统在智慧城市、军事安防和智能家居等领域快速发展。同时随着智能终端的普及和移动通信网络的发展,使得大量短视频快速涌现,这急需对视频内容进行理解,以便更好地检索、分类和审核视频,而视频的主体就是人体行为。巨大的应用前景和经济价值让人体行为检测迅速成为计算机视觉领域的研究热点。传统的人体行为检测算法需要根据特定动作设计特征工程,工作量巨大且鲁棒性不高。本文利用卷积神经网络(Convolutional Neural Network,CNN),针对中短视频和未剪切长视频分别设计具体的网络结构,提高算法的鲁棒性、准确率和实用性。对于中短视频,借鉴物体检测算法,提出物体检测加动态连接的人体行为检测方法。为了提高检测准确率,使用连续帧作为输入提取视频的时序信息,同时采用时空特征融合算法,得到更加鲁棒的特征。然后设计有效的动态连接算法,从物体检测的结果中得到人体行为序列。最后在多个行为检测数据集上进行网络训练、验证并与前人的研究工作进行对比。实验验证了物体检测加动态连接算法的有效性,同时连续帧输入和时空特征融合进一步提高了准确率。对于未剪切长视频,提出三维卷积配合循环神经网络(Recurrent Neural Network,RNN)的网络结构。首先使用三维卷积对视频进行低等级特征编码,然后设计循环记忆模块进一步提取时序特征,最后通过检测部分实现行为检测。在循环记忆部分设计两个并行的语义约束模块P(Proposal)和C(Classification),通过精细化的损失函数设计,分别实现候选视频段提议和分类任务。在训练时动态调整语义约束部分损失函数的权重,加快训练速度,提高准确率。实验表明,相比于前人的研究,准确率提升明显,这说明本文提出方案的有效性,也让人体行为检测向实用性又迈进了一步。