基于生成对抗网络的行人再识别研究

来源 :太原理工大学 | 被引量 : 0次 | 上传用户:11-Jun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人再识别技术作为计算机视觉领域的重要研究课题,它可以形象地理解为在不同的监控摄像头下检索相同的行人。随着互联网的高速发展,监控网络渐渐覆盖到生活的方方面面,大量的图片数据需要处理,由此行人再识别技术被人们广泛关注。尽管目前行人再识别性能有所提高,但现有的方法通常依赖于这样一个假设,即要查询的人和图库图像都拥有相同的服装。虽然这个假设确实适用于许多现有的Re-ID数据集,但如果数据经过很长时间的聚合,同样衣服的假设就不成立了,因为人们倾向于每天换衣服。对许多行人再识别方法而言,跨图像改变个人的衣服会导致性能严重下降。由于行人再识别广泛使用的数据集中缺乏同一身份的服装变化,服装依赖问题在之前的工作中很少受到关注。为了克服以往工作的局限性,并确认目前Re-ID方法的服装依赖问题,收集一个包含服装变化的新数据集是一个选择。然而,这可能会导致隐私的伦理问题,一些现有的数据集如DukeMTMC因此被暂停。为了解决目前Re-ID方法的服装依赖问题,需要一个数据集来进行评估。生成对抗网络作为免费的数据集增强的方法进入人们视角。同时现有的行人再识别方法大多被训练成只关注匹配衣服的颜色,而忽略了其他与身份相关的线索,如体型。仍然由服装颜色信息主导,无法实现换衣情况下的行人再识别。针对于本文展开研究,具体工作如下:1、本文基于生成对抗网络进行数据增强,将行人再识别模块和生成对抗网络中的数据生成模块相互关联搭建了统一的学习框架。由此进行数据集增强,合成一个包含服装变化的行人数据集。一般来说,开发这个合成的数据集是为了评估现有的最先进的方法在换衣服的场景中的弱点。为了实现上述目标,本文引入一个生成模块,其中编码器将每个行人图像分解为两个潜在空间:外观空间,主要编码外观和其他身份相关的语义;结构空间,包含几何和位置相关的结构信息以及其他附加变化的结构空间。本章通过转换图像之间的外观和结构代码来实现图像生成。无论是具有相同/不同身份的成对图片都可以运用操作代码来生成实际的和不同的内部/交叉标记组成的图片。同时本文对比了现在先进的数据增强方法,实验结果表明,本文合成的数据集更具真实性和多样性。2、本文提出了一个颜色不可知形状提取网络来解决服装依赖问题,该问题通过对抗性学习和结构解纠缠来学习身体结构视觉表征。特别是,利用RGB图像产生的灰度图像来获得在服装颜色变化中相同分布的视觉特征。此外,提出的模型在观察具有姿态变化的灰度和RGB图像时,通过执行图像恢复来实现结构提取。该网络运用跨颜色变化的对抗学习策略,用于推导体型特征和跨姿势变化的图像生成,以实现体型解纠缠。通过对抗性学习和特征分离来产生不受服装颜色或图案影响的体型特征表示。同时在4个数据集上的定量和定性结果验证了目前行人再识别方法的不足以及本文方法的有效性及泛化能力,4个数据集(两个基准行人再识别数据集、一个跨模态行人再识别数据集以及合成数据集)的定量和定性结果证实了该方法对几种最先进的方法的鲁棒性和优越性。其中合成数据集就是通过数据增强得到的数据集,主要用来评估现有方法的不足以及用来证明本文方法的有效性。
其他文献
生态振兴是民族地区巩固脱贫攻坚成果、消除区域性发展不平衡不充分问题的重要途径。当前,民族地区在生产发展、生活提高、生态改善方面虽然取得了一定成效,但粗放型发展行为并未完全扭转,可持续发展的历史性、累积性、深层次问题尚未得到根本解决。必须从思想层面纠正民众认识偏差,强化思想与文化建设,培育“社会主义生态公民”;发挥生态禀赋优势,促进增长动力转换,实现产业与生态融合;构建“生态+”多元一体治理模式,推
期刊
声学场景分类可以通过分析处理来识别音频所描述的声学场景,是自然声学场景计算分析领域的重要技术,在智能设备、声音监控以及多媒体分析等领域的应用十分广泛。但是目前声学场景分类任务仍存在着分类准确度不高、泛化能力较弱等问题,基于此,本文开展了如下研究工作:(1)首先介绍了声学场景分类技术的研究价值及其国内外研究现状,梳理了声学场景分类的基本流程,并详细叙述了音频样本数据的特征提取,和常用分类模型在声学场
学位
随着信息时代的到来,在互联网上会产生越来越多的非结构化文本信息,在文本信息中隐藏着许多有价值的数据,为了从中获取这些重要数据,需要信息抽取技术的帮助。信息抽取可以从海量数据中抽取出结构化的信息,实体关系抽取是信息抽取的主要任务之一,是构建知识图谱、自动问答等自然语言处理任务的基础。因此,实体关系抽取具有重要的研究意义。传统流水线方法存在错误传播和不能有效抽取关系重叠的问题,会导致实体关系抽取模型总
学位
机器学习是当今迅速发展的前沿研究领域之一,机器学习技术最近被用于研究在凝聚态、量子信息和相关物理领域中遇到的经典问题和量子多体问题。通过这些研究的最新进展以及重要应用提升了对该领域的认识。本文以伊辛模型和Potts模型的相变研究为例,采用王朗道蒙特卡罗算法模拟得到模型的构型数据集,之后使用机器学习的非监督学习方法对模型的相变进行研究。使用机器学习研究相变时,通常运用蒙特卡罗方法生成模型的构型来制备
学位
数字内容资源数量大、类型多、传播快、侵权难度低,导致侵权认证困难和维权成本高。目前,版权保护主要途径是利用中国版权保护中心著作权登记系统和第三方社会化版权管理系统对版权进行登记。这些系统大都以基于DCI(Digital Copyright Identifier,数字版权唯一标识符)体系或区块链的版权登记方式对版权认证;由于缺少数字内容资源与版权标识技术性永久绑定的手段,无法进行版权追踪,数字内容资
学位
脑网络已经在神经成像领域内得到广泛的应用。近年来,高阶功能连接网络和超网络在脑疾病诊断方面取得了较大的进步。然而,两种网络均存在相应的问题:高阶功能连接网络虽然考虑了网络的时变特性,但并不能处理网络中的空间多元交互问题;而超网络虽然可以表征多个大脑区域之间的相互作用,但并未考虑到网络的动态特性,这种相互作用本质上是静态的。因此,上述两种网络都有各自的局限性。为了解决这一问题,本文融合高阶功能连接网
学位
心脑血管疾病因其高死亡率,目前已经成为医学界的重点研究病症之一。中国作为人口大国,患病人数逐年上升,心脑血管疾病已经不仅是中老年群体的高发病,45岁以下的中青年同样成为了易发生心梗、脑卒中等心脑血管疾病的高危人群。常见的临床检测与诊断存在着预防困难、诊断不及时、传统体检检测困难以及治疗易致残等问题,因此,如何在发病前快捷有效地进行辅助预测,从而对患者起到预警作用是一重大问题。回顾漫长的中国医学发展
学位
为了实现对桥梁平转施工动态过程的实时监测,系统设计并完成了集成应力传感器、倾角传感器、拉线传感器的集成式球铰的桥梁转体防倾覆监控系统。依靠MATLAB与LabVIEW混合编程模式实现多倾角传感器的融合、应力差法计算桥梁的倾覆力矩,利用倾角和倾覆力矩双输入的模糊计算得到转体桥梁唯一的倾覆危险值,提高了转体桥梁的倾覆危险值的可靠性。系统通过三维模型的姿态跟踪及应力映射,实现人性化的直观显示,简化施工现
期刊
数字图像已经在日常生活中被广泛使用,但是也面临着信息泄漏和侵犯版权等问题,因此数字图像保护技术应运而生。作为两种重要的图像保护技术,数字图像加密技术和数字图像水印技术已经成为研究热点。近年来,数字图像加密技术的研究大部分都是基于简单、低维的混沌系统,安全性不足;而数字图像水印技术则大部分是在水印嵌入算法上作出改进,忽略了水印系统的安全性。本文针对数字图像保护技术中的问题进行了研究,提出了基于高维复
学位
植物叶片病害识别是农业和图像处理领域共同关注的重要课题。目前大多数病害识别的研究都基于神经网络,而成功的神经网络包含较多的参数,使用有监督的神经网络模型进行叶片病害识别需要充足的样本进行训练。而在现实生活中,由于标记样本的代价较高或病害发病率较低等因素,往往得不到充足的训练数据,这是目前植物病害识别研究的一个普遍挑战。因此,需要寻找一种能够生成病害图像的数据增强方法,解决训练样本不充足问题,以满足
学位