面向行人重识别的多线索信息融合学习

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:gsdfs334
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人重识别旨在从多个摄像机拍摄的数据中正确匹配感兴趣的行人,其在智能安防、智慧交通以及智能警务等领域有着广泛应用。近些年随着深度学习的快速发展以及计算设备的性能提升,行人重识别研究取得了瞩目的进展。然而,行人重识别面对的监控场景是复杂多样的,遮挡、模糊、背景和衣着变化等因素会给现有方法带来很大的挑战。为了更好地应对复杂环境,提升行人重识别系统的鲁棒性和区分力,本文从多线索信息融合的角度出发,在时空信息融合、前背景信息融合以及视觉无线信息融合等方面着手展开研究。本文的研究内容以及创新点主要包含以下四个方面:首先,在时间与空间信息融合方面,本文提出了一个精化循环单元,通过融合时空信息,提升视频帧的特征质量。对于行人重识别,遮挡和模糊等视觉干扰因素会使某些帧提取到的特征退化,含有大量噪声。但是视频帧之间的信息冗余以及视频中包含的运动信息,可以使得某一帧的内容通过参考相邻帧的信息进行恢复。为了对视频的上述特性进行建模,本文设计了一个精化循环单元,通过利用帧与帧之间行人的外观变化以及运动信息来精化每一帧的特征,降低噪声的影响。应用了这一精化循环单元的行人重识别模型在大型数据集上取得了领先精度。其次,在前景与背景信息融合方面,本文设计了一个双路前背景融合学习方法,提升模型对前景和背景的区分能力。行人重识别中的监控场景复杂多变,这使得模型难以区分前景和背景,干扰了模型对行人特征的提取。针对这一问题,本文提出了一个双分支的前景背景融合学习方法,借助行人身份与相机身份的对偶性引导两个分支分别提取前景特征和背景特征。基于两个分支关注区域的互补性,本文又提出了一个目标增强模块,使得两个分支可以相互融合,相互约束,互相促进。大量的实验数据和可视化结果表明,所提方法能有效区分前景和背景,并在多个大型行人重识别数据集上达到了领先性能。第三,在视觉与无线信息融合方面,本文提出了一个基于上下文传播的多模态行人重识别框架,通过结合视觉信息与行人手机的无线定位信息,提升行人重识别系统的可靠性和性能。视觉数据容易受到遮挡和换装等视觉噪声的影响而变得不可靠,而智能手机的无线定位信号不会受到视觉噪声的影响。基于这一特性,本文提出了综合利用视觉数据与无线定位数据实现行人重识别和信号匹配的新任务,并提出了一个全场景标注下的多模态行人重识别框架。此框架依靠一个循环上下文传播单元融合视觉信息与无线信息,并借助一个无监督的多模态跨域训练方法,使用多模态数据训练行人重识别模型。所提框架融合了多模态数据各自的优点,提升了系统的可靠性和性能,相较于现有视觉算法实现了明显的性能提升。最后,在视觉与无线信息融合方面,本文进一步提出一个基于图神经网络的多模态行人重识别框架,相较于基于全场景标注的方法,在性能相当的情况下显著降低了数据标注开销。基于全场景标注的方法通过对整个监控区域的经纬度标注关联多模态数据,虽然提升了数据关联的可靠性,但是引入了大量的数据标注开销。针对这一问题,本文提出了一个弱场景标注下的多模态行人重识别框架,其只需要标注监控相机的位置信息,便可借助一个多模态数据关联模块建立视觉数据与无线数据之间的关联,并通过一个多模态图神经网络融合多模态信息。此方法在多个数据集上超过了现有的视觉方法,并在显著降低数据标注开销的情况下,获得了与基于全场景标注的方法相当的精度。
其他文献
近年来,金属和有机小分子不对称联合催化逐渐发展起来,已经成为了合成结构多样的手性化合物的重要方法之一。金属和有机小分子联合催化体系可以充分发挥两类催化剂的优势,实现单一催化体系难以完成的反应。本篇论文对该领域的研究进展进行了详细的阐述,并围绕过渡金属和手性路易斯碱联合催化的不对称反应进行了研究。发展了可见光活化和手性异硫脲接力催化的α-重氮酮和氮杂二烯不对称串联环化反应,以优异的收率和立体选择性合
学位
深度思维指的是超越浅显认知的,能够觉察到事物深层逻辑的一种思维,包括直觉思维、批判思维、迁移思维、归纳思维等。基于深度思维开展初中物理实验教学,对于培养学生的识记、理解、应用、迁移等综合素养有着积极意义。文章基于初中物理实验教学具体案例,论述了基于深度思维开展教学的有效策略,指出教师可以通过确定目标、活用教法、组织活动、组织练习等方式引导学生在初中物理实验学习中发展深度思维,希望为一线教师提供教学
期刊
随着社会经济的发展,工业化、城市化进程的加快,能源需求量与日俱增,与之俱来的是化石能源造成的环境污染问题,其不可避免且迫切需要解决。因此,对清洁和可再生能源的研究探索成为全球科研工作者工作的焦点。然而,由于可再生能源供应不稳定,限制了其大规模应用。基于此,开发一种有利于实现稳定利用可再生能源的储存系统是非常必要的。近年来的研究表明,具有特殊物理化学性质的功能材料在利用可再生能源方面拥有巨大的开发和
学位
煤炭与人们的生活息息相关,近年来煤炭消费占比急剧上升。煤矿在建设和生产过程中矿井通风系统是不可或缺的一个环节,该通风系统产生的矿井回风一年四季不间断且风量巨大,部分矿井的回风温度维持在15℃以上。近年来国家积极鼓励终端用能多能互补和综合梯级利用,如何利用矿井回风热量一直是从事煤炭能源环保领域相关学者致力于研究的热点,其中喷淋换热热回收-热泵供热技术是矿井回风余热利用的主要方式之一。针对该换热方式开
学位
托卡马克等离子体高参数运行需要优化控制等离子体电流密度剖面、电子密度剖面及温度剖面等。这些参数均有相应诊断可以给出分布,如电流密度可用电磁测量、运动斯塔克效应等;电子密度可用偏振干涉仪、汤姆逊散射等。部分积分诊断还需要结合磁面测量才可以获得精确的剖面分布。相较于基于复杂物理模型的传统等离子体剖面重建算法而言,贝叶斯推断的等离子体剖面重建以概率统计的方式决定待求剖面的条件概率,给出基于拟合诊断测量数
学位
氨基醇类化合物广泛存在于天然产物以及药物分子中,是一类非常具有合成价值的化合物。对于氨基醇类化合物的合成,最简单有效的方法之一是环氧醇或氮杂环丙烷醇的亲核开环反应。此类反应具有反应条件温和,操作简单,原料及催化剂廉价且简单易得等优点,对于有机合成具有重要意义。本文分为三个部分来介绍路易斯酸催化的环氧醇和氮杂环丙烷醇的开环反应。第一部分:硼酸催化3,4-环氧醇的区域选择性胺解反应在本部分工作中,我们
学位
现代社会信息产业蓬勃发展,人们对于计算资源、计算能力的需求永无止境,但随着芯片加工尺寸接近原子量级,量子效应显现,晶体管电路逐渐接近性能极限,基于半导体产业的经典计算机计算瓶颈愈发显现,人们迫切需要探索新的计算方式。量子计算是一种利用量子力学原理调控信息单元从而完成计算任务的新型计算模式,其借助量子体系中的态叠加和纠缠特性可以实现并行计算,在特定的计算问题上,能够突破经典信息系统的计算极限,产生指
学位
随着互联网的飞速发展,视频数据量呈指数级增长,给存储和传输造成巨大压力,因此迫切需要对视频进行更高效的压缩。视频数据中主要为时间冗余,帧间预测是去除时间冗余的核心工具。因此,如何高效地进行帧间预测是提升视频编码效率的关键。经过四十多年的发展,帧间预测技术取得显著进步,但随着研究的深入,传统帧间预测的发展也逐渐遇到性能瓶颈,这主要有两方面原因:第一,传统帧间预测模块是手工设计和优化的,预测能力有限;
学位
金刚石中的氮-空位色心(Nitrogen-vacancy Center,NV)在室温大气下有优异的相干性质,可通过激光实现量子态的初始化和读出,是量子计算和量子精密测量中非常优良的量子体系之一。作为一种量子磁传感器,NV色心具有极高的灵敏度和空间分辨率,迄今已实现了单个电子自旋和核自旋的纳米磁共振探测。在过去的十年里,基于NV色心磁测量的应用研究已经扩展到生物、医药、凝聚态等多个领域。当前对NV色
学位
人工智能是一门研究如何赋予计算机类人智能的学科,涵盖图像处理、语音处理、自然语言处理等多项技术,其中自然语言处理架起了人类与机器之间语言沟通的桥梁。为了方便人类与机器进行自然且沉浸式的语言交互,科学家们致力于构建诸如 Apple Siri、Google Now、Microsoft Cortana 和 Amazon Alexa 等智能对话系统或社交聊天机器人,这也是人工智能领域长期关注的关键任务之一
学位