论文部分内容阅读
近年来,随着深度学习技术在计算机视觉领域日益发展,人工智能时代的脚步离我们越来越近。特别地,由于在安防、人机交互、视频分析等方向表现出十分有潜力的应用前景,视频时序行为检测任务引起科研界研究人员的广泛关注,随之而来的是层出不穷和日新月异的研究成果。与行为识别任务有所区别的是,在未处理的长视频之上,行为检测不仅需要输出行为类别,而且更重要地需要定位出行为片段的精确的起始和结束时间,这是一项更富挑战的计算机视觉任务。行为识别与行为检测之间的关系同图像分类和目标检测之间的关系很像。基于图像分类问题,发展出了许多强大的网络模型如残差网络,这些模型在目标检测的方法中也起到了很大的作用。同样,行为识别的相关模型如双流网络,在时序行为检测中也被广泛应用。由于行为识别和行为检测之间存在一定的相似性,所以很多行为检测框架都采用了和目标检测方法相似的框架。行为检测任务的挑战大致总结为三点:首先,在目标检测中物体目标的边界通常是非常明确的,所以可以标注出较为明确的边界框。但时序行为检测的边界很多时候并不是很明确,开始和结束时间在帧级上很难精确;其次,只使用静态图像的信息,而不结合时序信息在行为识别中通常也可以得到比较不错的效果,但是在时序行为检测中,由于边界定位对时序信息有很强的依赖,必须结合时序信息;最后,时序行为片段的时间跨度变化可能比较大,在有些数据集中,最短行为片段可能只有一秒,然而最长的行为片段超过10秒。这对网络对多尺度信息和长时序信息的捕捉能力是要求很高的。本文提出了一种基于稠密扩张卷积的一种新颖的有效捕捉多尺度和长时序信息的网络模块(Dense Dilated Temporal Network,DDTN)。该模块提炼了扩张卷积可以在不丢失信息的前提下扩大感受野尺寸和稠密网络对信息高效融合和传播的优势,并对通过设定稠密模块内扩张系数恒定和模块间扩张系数递增的模式将二者有机结合在一起组成了DDTN。通过内嵌扩张卷积操作的层级稠密网络模块的堆叠,DDTN可以有效地对时序行为检测任务中视频中长时序依赖和信息多尺度建模,很大程度上克服了时序行为检测问题的困难点。实验表明,在目前基于深度学习的时序行为检测两大解决方案中(基于细粒度帧级检测以及基于时序提议和分类回归的检测),DDTN均带来模型效果的提升。