论文部分内容阅读
近些年,随着监控技术的快速发展,大量视频快速涌现,有效保障人们安全高效的工作生活。与此同时,这也急需对视频内容进行分析。通常来说,人体行为实例是视频的主体,而监控视频包含大量不包括人体行为的无用片段,因此需要快速定位视频中包含的每个行为实例片段,以便更好地对视频进行有效的理解与分析。传统的机器学习算法需要人工设计特征,计算复杂度高且泛化能力差,难以准确地对人体行为进行分析判断。因此,本文基于深度学习方法,针对未剪切人体行为长视频的特点,构建了多阶段行为定位网络架构,从而提高人体行为定位算法的精准性和通用性。
行为定位是指在未剪切长视频中检测出视频中包含的行为实例,并准确定位出行为实例发生的时间片段,但当前行为定位存在行为边界不明确,时序信息特征难以抽取,行为片段时间跨度大等难点。因此本文基于当前难点,完成以下的内容:首先,本文提出基于时序分割网络的底层编码方式,既保证带有视频信息的基础特征表示,又有效降低视频帧之间冗余特征的抽取。其次,本文通过引入双向循环记忆模块用于增强长序列特征之间的交互能力,并针对行为实例特点构建边界敏感网络,从而生成具有更高召回率的时序行为推荐,并且本文通过改进非极大值抑制算法阈值选取机制,使得不同候选行为推荐自适应地适配合适的阈值,从而解决不同时间窗口的候选推荐对阈值选择敏感程度不同的问题。最后,本文提出通过时间金字塔池化位置精修模块,既保证行为片段推荐特征图尺寸的统一,又解决特征过度损失引发表达能力不足的问题,并引入非参数化坐标偏移作为学习目标,提高了位置精修边界回归精度。
为验证本文所提出的多阶段网络时序行为定位算法的有效性,本文使用ActivityNet1.3数据集进行相关实验。与单独的行为片段定位网络结构相比,本文提出的方法在 ActivityNet1.3中 AR@100和 AR@AN分别提升12.76%和10.49%。实验结果验证了本文改进后的网络能有效地提高对未剪切长视频中人体行为定位效果。
行为定位是指在未剪切长视频中检测出视频中包含的行为实例,并准确定位出行为实例发生的时间片段,但当前行为定位存在行为边界不明确,时序信息特征难以抽取,行为片段时间跨度大等难点。因此本文基于当前难点,完成以下的内容:首先,本文提出基于时序分割网络的底层编码方式,既保证带有视频信息的基础特征表示,又有效降低视频帧之间冗余特征的抽取。其次,本文通过引入双向循环记忆模块用于增强长序列特征之间的交互能力,并针对行为实例特点构建边界敏感网络,从而生成具有更高召回率的时序行为推荐,并且本文通过改进非极大值抑制算法阈值选取机制,使得不同候选行为推荐自适应地适配合适的阈值,从而解决不同时间窗口的候选推荐对阈值选择敏感程度不同的问题。最后,本文提出通过时间金字塔池化位置精修模块,既保证行为片段推荐特征图尺寸的统一,又解决特征过度损失引发表达能力不足的问题,并引入非参数化坐标偏移作为学习目标,提高了位置精修边界回归精度。
为验证本文所提出的多阶段网络时序行为定位算法的有效性,本文使用ActivityNet1.3数据集进行相关实验。与单独的行为片段定位网络结构相比,本文提出的方法在 ActivityNet1.3中 AR@100和 AR@AN分别提升12.76%和10.49%。实验结果验证了本文改进后的网络能有效地提高对未剪切长视频中人体行为定位效果。