论文部分内容阅读
行人重识别是一项能够跨越时间维度和空间维度,对同一行人目标进行跟踪、匹配与身份鉴定的技术。该技术在刑事侦查领域中有极高的应用价值,在打击犯罪和安防安保中愈加重要。通过该技术还可计算公共场所的人流数据,从而对交通系统进行设计和优化。此外,利用行人重识别技术还能够获取顾客购物时的运动轨迹,帮助商超经营者分析顾客的真实需求,从而更深一步挖掘商业价值。然而,在行人重识别技术的实际应用中,仍存在许多限制因素,如数据集中样本数量不足、较低的图像分辨率、变化的光照强度、多样的行人姿态以及复杂的背景遮挡等问题,这些都大大影响了模型的识别准确度。如何有效地解决上述问题,仍是行人重识别这项研究中需要面临的挑战。近年来,伴随着深度学习技术的迅猛发展,如何利用智能化技术解决上述问题,并实现对海量视频数据进行高效地处理与分析,从中提取到有价值的信息,从而对视频中的目标行人进行身份识别,成为热点研究问题。本文将研究基于深度卷积神经网络的行人重识别技术,主要研究工作包括以下几部分:(1)传统Softmax分类损失函数在处理行人重识别任务时,会忽略约束组内图像样本的类内、类间距离,进而影响模型的识别准确率。针对这一问题,本文首次将排名列表度量学习损失函数引入到行人重识别领域,并将它与Softmax损失函数相结合设计出一种组合损失函数。该组合损失函数既能够学习到一个良好的度量方式,保证类内距离足够小、类间距离足够大,又能够通过网络模型学习到具有判别能力的行人特征。度量学习损失函数和传统分类损失函数各有特点,当它们构成组合损失函数协同工作时实现了优势互补。在多个常用的行人重识别数据集上的实验结果表明,基于组合损失函数的深度度量学习算法相较于其他算法具有明显优势,能够有效提升行人重识别性能。(2)基于深度卷积神经网络的方法需要依赖大量训练数据,因此模型性能的优良与用于训练模型的行人重识别数据集有着重大关系。但目前许多公开的行人重识别的数据集存在规模小,单个类别中的样本数量少,行人姿态多样性不足等问题,以上问题导致行人重识别模型无法适应复杂的背景变化。针对这些问题,本文设计出一种行人图像风格转换模型。该模型能够自动对原始数据集中图像的风格进行转换,然后将风格转换后生成的图像和原始图像构成新的训练集。行人图像风格转换模型能够对数据集进行有效扩充,增加样本的多样性,也有助于学习具有判别能力的行人特征,减少过拟合的影响。(3)本文对身份鉴别嵌入(Identification Embedding,IDE)模型的主干网络进行改进,并用它来训练重识别模型。IDE模型是行人重识别最常使用的基准模型之一,但IDE模型在实际应用中适应复杂背景的能力和泛化能力较差。因此,本文针对IDE模型存在的不足进行改进。首先,将原始IDE模型中做特征提取的主干网络改进为更加简洁高效、计算复杂度更低的Res Ne Xt网络。然后,对Res Ne Xt网络的内部结构进行改进,使之能够实现根据训练集中行人类别的数目,自适应设置全连接层的输出维度。本文所设计的行人图像风格转换模型和改进IDE主干网络后的重识别模型的训练会组成对抗:重识别模型在不断提高质量的生成图像的挑战下,可以提高对图像细节特征提取的能力。二者共同构成一个综合的、一体化的行人重识别系统。实验结果表明,本文的方法最终实现了识别精度、行人姿态的鲁棒性和泛化能力这三方面的提高。