论文部分内容阅读
随着多媒体技术和互联网技术的发展,日常生活中包含图像、视频等形式在内的影像内容规模已经越来越大。在浩如烟海的影像数据中,人们感兴趣的往往是其中包含的语义目标。这些语义目标可以是一个物体,也可以是一种行为。利用计算机从浩如烟海的影像内容中识别出人类感兴趣的语义目标,这就是影像识别的工作重点。作为计算机视觉领域的一个基础任务,影像识别技术在安防监控、智能交通、人机交互等领域均有着广泛的应用。影像识别技术通过对影像数据进行预处理,设计影像特征,并在影像特征的基础上学习分类模型来完成对影像中目标类别的判断。经过多年发展,研究者们已经提出了多种影像识别算法,将影像识别问题从最初简单的手写字符识别,拓展到如今更复杂的目标识别、场景理解、行为分析等任务,并将影像识别技术成功的应用到各个领域。深度学习下的影像识别指的是利用深度学习技术,对影像内容中感兴趣目标的类别进行有效判断。与传统基于手工设计特征的方法相比,深度学习下的影像识别因为能够通过训练深度神经网络自动地从数据中学习特征,因而具有更强的数据自适应性,往往也能获得更高的识别精度。近年来,研究者们针对不同的任务场景,主要从判别性信息提取、网络结构设计、模型参数学习三个方面开展了影像识别问题的研究,提出了许多有效的影像识别算法。然而,随着影像数据量的急速增加,以及识别任务的逐渐精细复杂化,目前的影像识别算法仍面临着以下问题:1)影像中包含着大量冗余、无用的数据;这使得算法难以关注到与识别任务最相关的判别性信息,从而不能获得理想的识别性能;2)现有深度神经网络结构缺乏对图像中不同区域之间空间关系的有效利用;3)目前的深度神经网络参数学习方法主要针对网络本身进行优化,忽略了对图像中不同区域语义性分布不均匀这一特性的考虑;4)目前的分类器学习算法依赖于影像特征的质量,缺乏对影像特征中噪声的鲁棒性。因此,研究深度学习下的影像识别问题不仅具有意义,而且也具有很强的挑战性。本文针对上述问题开展了四个方面的研究,主要的研究内容和贡献如下:(1)基于运动轨迹和视频语义块的行为识别算法。作为一种常见的影像数据,视频中包含着大量的冗余、无关数据。如果将所有的冗余、无关数据全部输入深度神经网络模型进行训练,不仅会增大训练的难度,而且会降低识别的精度。本文针对这个问题,从判别性信息提取的角度,假设视频中与行为最相关的是轨迹信息和视频语义块信息。其中,轨迹反映了细微运动信息,而视频语义块反映了行为主体、运动场景的等语义目标信息。利用深度神经网络提取轨迹和视频语义块的特征,从而最大程度的剔除与最终识别无关的冗余信息。在两个公开数据集上进行了验证,证明了基于运动轨迹和视频语义块的行为识别方法可以有效提高识别精度。(2)基于空间关系的精细图像识别算法。影像数据中不同类别目标之间往往具有着高类间相似性,这在精细图像识别任务上尤其明显。与传统图像识别任务不同,精细图像识别任务中不同种类的目标彼此之间在外观、轮廓等方面高度相似。针对这个问题,提出利用目标部位之间的空间关系作为新的判别依据。与外观、轮廓等在不同类别间容易混淆的特征不同,目标不同部位之间的空间关系反映的是目标自身的局部关联信息,往往具有类本身的独立性,从而可以增强算法对不同类别目标之间的区分能力。然而现有深度神经结构并不能有效利用空间关系,因此在现有卷积神经网络的基础上,引入空间关系选择层和图像表达层,从深度神经网络结构设计的角度缓解了高类间相似性带来的类别判断容易混淆的问题。此外,本文也分析了引入空间关系之后算法的时间效率。(3)基于判别性网络学习的精细图像识别算法。在精细图像识别任务中,不同类别目标图像之间的区别往往隐藏在少数目标关键部位所在的区域。然而,目前大部分深度神经网络训练方法主要是针对网络进行研究,而对作为网络输入的图像的这一内在特性缺乏重视。针对这个问题,本研究提出一种基于判别性网络学习的精细图像识别算法。该算法首先利用基于空间相似性的谱聚类从图像中提取关键目标部位,其次在每次训练的过程中,随机的遮挡关键目标部位,最后通过最小化损失函数来训练网络模型,使其能够从未被遮挡的目标部位中学习到更多的判别信息。本方法进行了两组对比试验,分别验证了提取关键目标部位的作用以及基于目标部位遮挡的深度神经网络训练方法对识别精度的影响。(4)基于联合学习的视频行为识别算法。在传统的视频识别任务中,分类器往往是在给定影像特征的情况下训练得到的。这样做的缺点在于给定的特征不一定对当前分类器是最优的,因此也就难以训练出性能最优的分类器。本研究针对此问题,将特征优化引入分类器训练过程,在训练分类器的同时对特征进一步的优化,以此得到更优的特征和分类器。具体来说,本研究在传统的分类器训练过程中引入稀疏编码模型,在训练阶段,将稀疏编码和分类器的损失结合在一起,同时优化损失得到稀疏编码所需要的字典和分类器的参数。稀疏编码后的特征不仅更加紧致,而且因为联合了分类器的损失,也更加具有针对性。本方法在两个视频数据集上进行了测试,实验结果证明联合学习的思路可以得到更有判别性的特征和分类器,也因此提高了整体的识别精度。