【摘 要】
:
行人重识别(Person re-ID)的目标是匹配由拍摄视角不重叠的不同摄像头捕获的相同行人身份的图像。目前基于监督学习的行人重识别方法在单域上的性能提升最大,但是将一个在单域上取得高性能的模型直接运用到没有标签的新域上时,往往性能会出现下降的情况。这是因为不同域间样本由于拍摄的摄像机不同,因此会有比较大的域间差,这也是无法高效地将行人重识别使用在实际生活中的一大原因。为解决上述问题,学术界提出了
论文部分内容阅读
行人重识别(Person re-ID)的目标是匹配由拍摄视角不重叠的不同摄像头捕获的相同行人身份的图像。目前基于监督学习的行人重识别方法在单域上的性能提升最大,但是将一个在单域上取得高性能的模型直接运用到没有标签的新域上时,往往性能会出现下降的情况。这是因为不同域间样本由于拍摄的摄像机不同,因此会有比较大的域间差,这也是无法高效地将行人重识别使用在实际生活中的一大原因。为解决上述问题,学术界提出了无监督域适应行人重识别的解决方案,可以分为基于图像映射的方法和基于伪标签的方法两类。然而现有的无监督域适应行人重识别方法存在图像映射后域间差依然很大及特征提取网络无法提取到行人细粒度特征,导致在聚类时生成大量带有噪声的伪标签的问题。为解决现有无监督域适应行人重识别方法存在的不足,本文从上述两类解决无监督域适应行人重识别的方法出发,提出基于生成对抗网络和发散注意力机制的无监督域适应行人重识别方法。本文的主要工作如下:(1)针对图像映射后域间差依然很大的问题,本文提出一种基于生成对抗网络的无监督域适应行人重识别方法,该方法旨在将源域上的样本风格映射为目标域的风格,并缩小映射后图像间的域间差。该方法使用孪生卷积神经网络构建了行人分类器以充分利用身份标签信息,同时利用循环一致性生成对抗网络将目标域上图像转换为源域上的图像,并加入可以优化数据分布的深度卷积生成对抗网络对域映射模型进行优化以最大程度缩小映射后图像间的域间差。(2)针对现有基于注意力机制和卷积神经网络提取行人特征的无监督域适应行人重识别方法无法提取到行人细粒度特征导致聚类生成伪标签过程中产生大量带有噪声的伪标签的问题,本文提出加入了发散注意力机制模块和深度聚类模块的无监督域适应行人重识别方法,该方法在可以有效地编码细粒度的特征信息的同时,通过减少大量的矩阵点积操作加快了计算时间,并提高了聚类的准确率,减少了带有噪声的伪标签的生成。
其他文献
深度伪造是利用深度学习强大的拟合能力来生成逼真人脸的一种技术。目前已经有着大量使用此类算法生成的恶意视频在网络中传播,对个人隐私和社会稳定造成严重威胁。也因此,深度伪造检测成为当前亟待解决的问题。目前伪造人脸检测的相关研究已经能够在各个数据集上表现出足够高的精度,但在泛化性仍有不足。不同的伪造算法所留下的痕迹各不相同,未知数据分布更是增加了检测难度。现有很多方法都是针对于某种特定伪造算法所产生的特
作为数字图像处理与计算机视觉中的关键任务,图像分割是对图像中像素点进行分类,为后续图像信息精细化理解及分析提供支撑。图像分割现已广泛应用于工业、遥感、医学、生物识别等领域,一直是学者们关注的热点。目前,基于有限混合模型的方法凭借其在图像分割任务中展现出的良好性能,成为该领域的流行方法之一。然而,模型参数的大量引入往往导致模型难以选择,同时增加了计算复杂度。此外,当前该方法主要依赖独立像素,并未充分
近年来,随着深度学习技术和操作简单的图像编辑工具的快速发展,人们可以容易的对人脸图像进行篡改甚至生成新的人脸图像。这些假脸图像十分逼真,人们很难发现破绽。一旦这些虚假的人脸图像在互联网上被广泛的传播、复制、伪造,那么将对日常隐私以及社会安全产生巨大的威胁。目前,研究者已提出很多深度伪造人脸检测算法。但是,这些算法在应用到现实场景中会面临如下两个问题:(1)图像传播过程中可能会经过压缩、模糊等后处理
现代互联网通信技术的发展和多媒体技术的普及,为图像、视频、音频等多媒体信息的共享与存储带来了便利。但同时带来了多媒体信息版权盗用的问题,造成了严重的信息安全隐患。数字水印技术以不可见的方式将版权信息嵌入多媒体信息中,能够有效实现版权保护和侵权行为追溯。本文针对使用较为广泛的静态图像载体,优化其在鲁棒性、不可感知性方面的综合性能,主要工作及创新点如下:1.针对现有方法难以抵御几何去同步攻击的问题,提
目标检测是计算机视觉领域中最基础且最具挑战性的任务之一,包含目标分类和定位。与此同时,目标检测作为图像理解和计算机视觉的基石,它为视频跟踪等任务提供了强有力的特征分类基础。最近,深度学习利用强大的分层特征提取和学习能力表现出更强的鲁棒性。尽管如此,现有方法在面对多尺寸目标检测和密集成群的小目标检测时仍无法取得较好的效果。为解决这些问题,本文旨在研究利用特征融合和重构的方法增强与丰富多阶段特征图中的
隐写术是将敏感信息隐蔽地嵌入到图像等通信载体中,并进行公开传输的一种隐蔽通信技术,可以实现敏感数据“神不知鬼不觉”地秘密传输。同时,违法分子也会利用隐写术来从事非法犯罪的活动。因此,为了防止隐写技术被用来造成一些危害社会的信息安全事件,隐写分析技术受到国内外学者的广泛关注及深入研究。近年来,深度学习在图像隐写分析任务中表现出了优越的检测性能。然而,基于深度学习的图像隐写分析模型需要隐写算法对应的大
视频目标分割是机器视觉中最基本的任务之一,在实际应用中发挥着重要作用。根据是否有人为的参与,可以分为无监督视频目标分割和半监督视频目标分割。本工作旨在研究半监督场景下的视频目标分割任务,即根据人为标注的视频首帧的目标掩码注释,来完成后续帧中的目标掩码预测。当前,基于时空记忆的方法由于其优异的性能,受到了广泛欢迎。其基本思想是通过构建一个外部记忆库来记忆历史帧中目标对象的信息,然后将查询帧中的像素与
随着神经胶质瘤发病率逐步上升,作为关键辅助诊疗手段的医学图像处理技术受到了越来越多的关注。其中,脑部磁共振图像分割与重建算法的有机结合能极大便利诊疗决策、模拟手术、术后规划以及医疗教学等医学任务。因此,分割与重建算法的设计一直都是医学图像处理与计算机辅助诊断领域备受关注且极度活跃的研究热点。然而,在成像过程中,高斯噪声和莱斯噪声经常叠加出现,造成采集到的图像质量退化,导致分割精度受限。同时,现有的
随着电子信息技术的发展,图像作为一种信息的载体,在人们的日常生产生活中被广泛地用来传输信息。但是,在图像的传输、压缩、存储或者相机的拍摄过程中都有可能产生信息丢失,从而导致图像整体质量的下降。因此,如何建立一个高效、准确的图像质量评价方法成为了计算机视觉领域的重要问题。随着深度学习的发展,越来越多的方法将卷积神经网络应用到图像质量评价领域中,并取得了良好的预测准确性。然而,失真图像中包含丰富的图像
图像版权保护通常是通过数字水印来实现的,因此数字水印也广泛应用于数据保护和数据所有权认证领域。然而,现有的数字水印存在固有的缺点,需要完全可信的第三方作为仲裁方,泄露风险和成本较高。第二,图像水印算法在对图像数据进行操作时不可避免地会导致图像数据的丢失,而这通常是不可逆的。零水印算法可以解决数据丢失的问题,但与传统的数字水印相比,零水印算法更依赖于可信第三方,这使得其应用前景受到限制。总体而言,本