【摘 要】
:
行人重识别是计算机视觉领域非常热门的研究课题,其在视频监控、智能安防等领域发挥着重要作用。由于行人身份标注的困难,目前只有无监督行人重识别能够适用于大规模现实应用,但由于不同场景下拍摄角度、人物姿态和光照环境等因素的变化,所得图像数据域的分布也不一致,导致无监督模型性能表现并不理想。本文对传统的基于字典学习的无监督行人重识别模型进行改进,除了学习过完备的视觉语义字典,还引入非对称投影用以消除不同摄
论文部分内容阅读
行人重识别是计算机视觉领域非常热门的研究课题,其在视频监控、智能安防等领域发挥着重要作用。由于行人身份标注的困难,目前只有无监督行人重识别能够适用于大规模现实应用,但由于不同场景下拍摄角度、人物姿态和光照环境等因素的变化,所得图像数据域的分布也不一致,导致无监督模型性能表现并不理想。本文对传统的基于字典学习的无监督行人重识别模型进行改进,除了学习过完备的视觉语义字典,还引入非对称投影用以消除不同摄像头数据间的分布偏差,以提升整体模型的判别性和鲁棒性。为了充分利用深度特征对输入空间非线性转换的优势,以及源域有标签数据携带的行人鉴别信息,本文基于卷积神经网络以及目前最新的特征迁移方案,学习一个由源域及目标域所有子摄像头所共享的嵌入编码空间,在此空间的基础上进行全局粗粒度特征和局部细粒度特征联合学习。本课题开展的具体研究内容如下:(1)大多数传统无监督行人重识别方法没有考虑到不同摄像头下特征分布差异对模型的负面影响,本文结合投影子空间和字典学习,同时引入多视图特征进行性能扩展,提供一个鲁棒的集成模型。首先通过一个非对称投影将不同摄像头下的数据映射到一个公共子空间,接着引入字典学习的误差重构项,通过构建视觉相似度权重矩阵对学习的字典编码进行约束,称拉普拉斯正则项。由于模型最终的识别效果很大程度依赖于相似度矩阵的准确性,而单视图的视觉相似度矩阵可靠性不高,因而引入多种视图特征。本文针对不同视图分别学习一个简单的弱模型,并通过分数融合得到最终的集成匹配结果。(2)现有深度模型未能有效解决因数据域偏差以及目标域伪标签噪音对模型带来的影响,本文将基于域的批量归一化与基于摄像头子域的批量归一化相结合,强制将来自两个域的所有相机图像投影到共同的子空间,从而有效地对齐两个域所有相机之间的数据分布。在此空间对目标域进行基于聚类伪标签生成的对比学习,并进一步提出对比参考空间,其中源域行人类别特征充当专家用以确定目标域行人图像是否具有某些特定的视觉语义特征,从而纠正由目标域聚类引起的身份标记错误,以减少噪声标签。此外,由于粗粒度的行人整体外观不利于正负样本对的挖掘,即不利于识别具有相似外观的不同身份行人和具有不同外观的同一身份行人,我们利用离线姿势检测器从行人图像中裁剪出不同区域的身体部位,然后根据它们分别进行最近邻相似性学习,以避免姿态变化对特征辨别力的干扰,实现细粒度特征学习,从而建立起多粒度无监督重识别模型框架。
其他文献
基于深度学习的车辆重识别旨在利用车辆外观特征在大型图库中检索目标车辆,实现车辆追踪,是智慧交通系统的一项核心技术。随着人工智能和大数据技术的发展,该技术在嫌疑追踪、无人停车场管理、智慧物流和自动驾驶等领域具有广泛应用,尤其是在当车牌被遮挡、移除、破坏等情况下,该技术发挥了巨大作用。由于车辆图像是由不同的摄像机拍摄得到,拍摄时光照、视角、分辨率等条件各不相同,导致车辆重识别面临着类间差异小、类内差异
目前,通信技术的相关应用已经广泛的服务于人们的生产生活,而无线系统的资源优化技术又是通信领域的研究重点。相较于传统的蜂窝系统,超密集网络拥有更丰富的基站资源,可以为用户终端提供更高质量的服务体验。然而,密集部署的基站不仅带来了严重的小区间干扰,而且容易导致基站出现空载或过载现象。此外,通信环境的参数瞬息万变使得传统功率分配算法难以在实时场景中应用推广。本文针对上述问题进行了研究,提出了超密集无线网
随着网络技术的快速发展和图像获取设备的日益普及,丰富多彩的数字图像成为传递信息的重要媒介。虽然数字图像给人们生活带来便利,其背后也潜藏着安全隐患。因此,如何保护好数字图像的完整性和真实性,是数字图像取证领域将要面对的巨大挑战。尤其是近几年GAN在图像领域取得的巨大成功,其生成的能够以假乱真的高清图像更是引起了相关领域各位专家学者的高度关注。挖掘自然图像与GAN生成图像之间存在的差异进而精准高效地鉴
终端直通(Device-to-Device,D2D)通信可以不通过基站转发,建立直接通信链路,实现用户的信息交互。D2D用户以复用模式工作,能有效减轻基站负荷,提升系统吞吐量,但同时也会产生同频干扰问题。此外,引入中继技术,可有效解决D2D对无法直接通信的难题。因此,本文针对同频干扰和中继选择问题,对D2D对的信道分配、中继选择和功率控制进行研究,主要内容包括:(1)针对信道分配中,多个D2D对复
Deepfake伪造人脸对信息的可信度、可靠性和安全性构成了极大的威胁。不法分子利用人脸交换技术生成伪造图像和视频误导群众,造成了不良影响,甚至引发恐慌。为了抵制虚假信息的传播,Deepfake检测技术受到广泛关注。现有的视频检测方法为避免数据冗余、节约计算资源,大多是随机选取视频的多帧或部分段作为检测对象。然而,这种选择策略会降低检测对象的表征能力,性能也会受到限制。因此我们提出了一种用关键帧代
由于中国不同地区气候的多样性,准确的气象监测有助于国家防灾减灾,其中,降雨和水汽监测在气候研究领域占有重要地位。目前,毫米波链路测量降雨和水汽成为新的监测技术,可以为气象监测提供高精度的数据。该研究利用搭建在中国南京市与河北香河县的E波段毫米波测试链路采集数据,通过气象要素与毫米波衰减的关系计算出降雨强度和水汽密度,然后将研究结果与实测值对比分析。主要研究内容包括:(1)分析了微波链路监测降雨和水
在大数据时代,公司和机构已经注意到多维数据的巨大价值,并且极力地收集高维众包数据以做出数据驱动的决策。然而,这些多维数据往往包含着数据拥有者的敏感信息,如果数据拥有者直接分享自己的多维数据,则会引起隐私泄露的问题。近年来,本地差分隐私被发现在收集和使用数据拥有者的数据并保护其隐私方面有实用价值。在本地差分隐私方案中,数据拥有者在数据外包前会先对其进行扰动,然后将扰动后的数据发送给服务器。如此,服务
随着互联网、传感器网络、数据通信技术的不断发展成熟,各行各业都产生了大量的数据,对于大数据挖掘技术的需求也越来越迫切。在众多应用场景中,数据都是陆续到来、数量无限且随时间变化的,学术界将这种数据形态定义为“数据流”,数据流挖掘技术因其较高的应用价值,在学术界掀起了广泛的研究热潮,本文研究的数据流分类就是其重要的分支。不同于静态数据集,动态变化的数据流中可能会伴随着概念漂移和新标签问题,严重影响了分
文本分类是自然语言处理中的一个基本问题。其核心是从文本中抽取出能够体现文本特点的关键特征,并设置一个从抓取特征到类别之间的映射关系。基于文本的特性,文本分类主要由短文本分类和长文本分类这两类构成。短文本分类是指对话题或者评论这种字数偏少,句式结构有缺省的文本进行分类,其需要关注的特征为有明显情感倾向的词特征和句特征。长文本分类是指对文章或者新闻这种字数偏多,句式结构完整,上下文联系很大的文本进行分
信息隐藏是将秘密信息隐蔽地嵌入到通信载体中,进行公开传输的一种隐蔽通信方式,可以实现秘密信息悄无声息地秘密传输。由于图像本身存在较大冗余且容易获取,图像隐写成为信息隐藏的主要方式。把秘密信息隐藏到图像高频细节区域,减少图像视法被广泛研究,主要包括获取载体图像、设计失真函数、生成含密图像三个方面,已经产生了丰富的研究成果。本文针对基于隐写失真设计的图像隐写方法展开研究,该类方法在嵌入秘密信息后,图像