论文部分内容阅读
人体行为识别是计算机视觉研究与应用领域的重要课题,在医疗监护系统、智能家居系统、虚拟现实、人机交互系统、智能安防、基于内容的视频检索、运动员辅助训练系统等领域具有非常广阔的应用前景。在传统的行为识别模型框架中,通常要满足两个条件:(1)训练样本数量足够多,这样才有可能学习到一个良好的分类模型;(2)测试样本和训练样本具有相同的分布。但是,实际场景中往往无法满足这两个条件。一方面,随着大数据时代互联网的快速发展和深度学习技术的出现,视频数据量每天都在快速地增长,对海量视频数据进行人工标注,将会耗费大量的人力、物力和财力。另一方面,一些新兴模态的行为数据也不断涌现,如由不同环境(背景复杂度、光照、场景等)下采集到的视频、不同相机视角(正视、侧视、俯视等)采集到的视频、不同传感器采集到的视频(如可见光视频、热红外视频、包含深度信息视频等)、不同媒体类型的行为数据(如图像、视频、各种传感器采集到的运动数据等)。对于这些不同模态的视频,训练样本的采集难度差异较大,导致某些模态的训练样本数量匮乏,并且不同模态的视频间存在较大的分布差异。如果使用传统的分类方法进行跨域行为识别,即利用有限的训练样本在其中一个模态学习一个分类模型,并直接将这个模型应用到另一个模态数据中进行分类,分类模型将不具有准确性和可靠性,分类性能会明显降低。本文设计针对性的迁移学习方法解决跨域人体行为识别问题,可以有效减少不同数据域中数据分布差异,减少初始化一个新的行为识别系统所需要的训练时间和工作量,使得行为识别系统泛化能力更强、更加鲁棒,并且能够有效地利用现有数据域的知识。本文着重于研究跨域行为识别中的以下三类问题:(1)跨光谱行为识别;(2)跨视角行为识别;(3)跨媒体行为识别。主要研究内容和贡献如下:1.针对现有红外人体行为识别视频数据匮乏的问题,提出一种基于特征对齐与归纳的可迁移表征学习算法来解决红外行为识别问题,该算法利用来自可见光的行为视频辅助红外视频,其中红外视频数据库作为目标域,将自建的可见光视频数据库XD145作为源域。采用核流形对齐方法将源域和目标域的特征映射到同一个隐含特征空间,得到对齐后的特征表达。然后设计一对对齐到归纳的编码器进行特征归纳,用源域和目标域归纳后的特征训练分类器。实验表明,该算法在公开的红外识别数据库InfAR上的识别率优于大部分主流的迁移学习和域适配算法。2.针对现有红外人体行为识别算法仅考虑空域或者局部时域信息而忽略全局时域信息的问题,将主流的可见光行为识别方法的CNN结构迁移到红外行为识别框架中,并提出一种新的全局时域表征,称作光流组合差分图像,然后在该表征的基础上构建了三通道卷积神经网络结构来提取鲁棒的特征。该网络的输入分别为光流图像,光流运动历史图像和光流组合差分图像,分别用来提取局部,空时和全局时域信息。然后采用轨迹约束池化技术分别从这三个通道的卷积层中提取特征,串联之后得到一种新的特征,称为三通道轨迹池化深度卷积描述子。实验表明,本文提出的光流组合差分图像能够较好地描述红外人体行为的全局时域信息,并且与局部时域信息(光流图像)和空时信息(光流运动历史图像)具有互补性,提取到的特征能够显著地提升红外人体行为识别性能。3.针对不同相机视角下人体行为外观差异带来的挑战,提出一种基于分层学习的视角不变表征。首先将一个样本相似度矩阵组合到边缘化去噪自编码器中来获取共享特征,然后和私有特征组合构成一种鲁棒的特征。为了让不同视角下行为的特征可迁移,采用可迁移字典学习方法使得不同视角下同一个行为拥有相同的稀疏特征。然而,当视角差异过大时,存在唯一的子空间使得不同视角下的同一个行为拥有相同的稀疏表达这个假设不再成立。因此,提出一种新的分布适配方法,该方法针对每个视角分别学习各自的映射,将不同视角映射到各自的子空间,同时使得这些子空间的差异尽可能小。最终,映射到这些子空间的特征便是最后的视角不变表征。实验表明,本文提出的基于分层学习的表征是视角不变的,能够对视角差异具有很好的鲁棒性,即使视角差异过大也能很好地适应,且识别率能够优于大部分主流算法。4.针对视频采集与标注的难度远大于图像的问题,利用图像和视频特征的互补性,提出一种基于深度适配融合网络的图像到视频跨媒体行为识别算法,该算法是一个组合域不变表征学习和跨模态特征融合的统一的深度学习框架。该算法利用视频关键帧作为媒介,将图像的信息迁移到视频中,提升视频行为识别性能。首先,设计了一种跨模态相似度度量来减少图像、关键帧和视频三个模态之间的分布差异。为了有效融合图像和视频的信息,设计了一种自编码器,该自编码器的隐含层表征被约束成等于行为类别名称的语义特征。然后同时将域不变关键帧特征、视频特征和它们的串联特征输入三个自编码器中进行跨模态特征融合。最后,将这三个自编码器的语义表征串联起来,得到最终的行为视频表征。实验表明,该算法能够有效利用图像信息提升视频行为识别性能,并且能够在视频训练样本匮乏的情况下取得不错的识别性能。