论文部分内容阅读
视觉是人类观察和理解世界的一个重要途径,而机器视觉中的一个重要任务就是通过准确地理解人体行为动作来更好地实现人机交互。与此同时,视频数据随着网络技术的发展正在海量增长,而视频人体行为识别与定位由于在视频安防监控、视频检索以及人机交互中的巨大应用价值也引起了越来越多的机器视觉工作者的重视。
由于计算机自动识别出视频中危害人身安全的行为动作后进行自动报警,可最大程度地减少受害人的伤害,具有重要的视频分析价值。同时由于很多危害人身安全的行为大多发生在夜晚或者黑暗无光的环境下,而人体在热红外摄像中即使是夜晚也显得十分清晰,因此本文主要研究的是面向人身安全的红外视频人体行为识别与定位。
针对红外视频人体行为识别的研究极少,红外数据集的人体行为种类也不够丰富的问题,本文首先构建了一个面向人身安全的红外视频人体行为数据集,该数据集共包含 23 个人体行为动作,其中有 8个是常见的危害到人身安全的行为动作。
论文的主要创新点如下:
1、提出了基于时空双流卷积神经网络的红外行为识别方法。时空双流卷积网络包含两条网络流,其中空间卷积网络通过融合红外图像及其对应的光流图像特征来学习该红外图像中真正发生运动的空间信息,时间卷积网络通过学习光流图像序列来学习人体行为动作的帧间变化信息。针对视频长短不一的问题,本文首先将红外视频进行平均分段,然后从每一段视频中随机抽取相应数据进入时空双流卷积网络得到每一段视频的识别结果,最后再将每一段的结果进行融合得到红外视频人体行为识别结果。
2、提出了基于结构化分段卷积神经网络的红外视频时序行为定位方法。首先将一段包含多个人体行为动作的红外视频输入时空双流卷积神经网络得到每一帧为动作的概率,其次通过时序动作聚类模型得到该视频的建议动作视频片段,其中每一个片段都包含该片段所属的动作类别、在原始视频的开始及结束时间。然后将所有的建议动作视频片段输入结构化分段网络得到每一个建议动作视频片段特征,最后通过动作分类模型和位置回归模型得到对该视频预测的所有动作视频片段。
由于计算机自动识别出视频中危害人身安全的行为动作后进行自动报警,可最大程度地减少受害人的伤害,具有重要的视频分析价值。同时由于很多危害人身安全的行为大多发生在夜晚或者黑暗无光的环境下,而人体在热红外摄像中即使是夜晚也显得十分清晰,因此本文主要研究的是面向人身安全的红外视频人体行为识别与定位。
针对红外视频人体行为识别的研究极少,红外数据集的人体行为种类也不够丰富的问题,本文首先构建了一个面向人身安全的红外视频人体行为数据集,该数据集共包含 23 个人体行为动作,其中有 8个是常见的危害到人身安全的行为动作。
论文的主要创新点如下:
1、提出了基于时空双流卷积神经网络的红外行为识别方法。时空双流卷积网络包含两条网络流,其中空间卷积网络通过融合红外图像及其对应的光流图像特征来学习该红外图像中真正发生运动的空间信息,时间卷积网络通过学习光流图像序列来学习人体行为动作的帧间变化信息。针对视频长短不一的问题,本文首先将红外视频进行平均分段,然后从每一段视频中随机抽取相应数据进入时空双流卷积网络得到每一段视频的识别结果,最后再将每一段的结果进行融合得到红外视频人体行为识别结果。
2、提出了基于结构化分段卷积神经网络的红外视频时序行为定位方法。首先将一段包含多个人体行为动作的红外视频输入时空双流卷积神经网络得到每一帧为动作的概率,其次通过时序动作聚类模型得到该视频的建议动作视频片段,其中每一个片段都包含该片段所属的动作类别、在原始视频的开始及结束时间。然后将所有的建议动作视频片段输入结构化分段网络得到每一个建议动作视频片段特征,最后通过动作分类模型和位置回归模型得到对该视频预测的所有动作视频片段。