【摘 要】
:
随着计算机视觉方向的研究日渐深入,社会安全对计算机视觉技术的需求不断增长,智能安防成为城市安全防护的重要手段。传统的人脸识别虽然可以通过人脸信息来定位人的身份,但是却无法在模糊的监控影像中对整个人体起作用。行人重识别正是解决此难点关键的研究方向之一,这种技术被用来对画面中的行人进行再识别,以确定每个人的身份信息。行人重识别是一项具有挑战性的图像检索问题。由于实际场景复杂多变,行人的前景和背景无法被
论文部分内容阅读
随着计算机视觉方向的研究日渐深入,社会安全对计算机视觉技术的需求不断增长,智能安防成为城市安全防护的重要手段。传统的人脸识别虽然可以通过人脸信息来定位人的身份,但是却无法在模糊的监控影像中对整个人体起作用。行人重识别正是解决此难点关键的研究方向之一,这种技术被用来对画面中的行人进行再识别,以确定每个人的身份信息。行人重识别是一项具有挑战性的图像检索问题。由于实际场景复杂多变,行人的前景和背景无法被有效地区分开来,影响模型对前景的感知能力。如何提取具有辨识度的行人前景特征就成了需要重点关注的问题。通过研究发现,在行人重识别任务中,同一台摄像机下图像的背景具有相似特征,而不同的摄像机下图像的背景在视觉上区分度较大。基于这一发现,本文基于Transformer设计了一种新颖的模型,并对所设计的结构从多个角度进行了优化,具体内容如下:针对行人重识别任务中背景之间相似性高,难以获得具有区分度的特征表达的问题,本文提出了一种基于模板感知注意力的结构。该方法为Transformer模型引入了一个可学习模板,自动地学习不同样本间的共性特征,从而减少模型对图像中区分度较低部位的注意力,包括背景和频繁出现的遮挡物等。在多头注意力模块中,该模板引导模板感知注意力去感知图像的共性特征,并随着编码器块结构的逐渐加深,促使模型增强对图像中个性特征的关注程度。为了进一步提升模板的表现,基于行人重识别多个相机机位的特点,本文还利用非视觉信息,来扩展可学习模板的数量,以使模型适应不同摄像机镜头下差异显著的背景特征。针对模板在大型图像数据集上预训练困难的问题,本文设计了一种新型的参数初始化策略,并与其它常见的参数初始化策略进行了实验对比,验证了该策略的有效性。通过将可学习模板结构及其扩展方法和参数初始化策略引入到Transformer模型中去,本文对所提出的模板感知Transformer模型在Market1501,DukeMTMC-reID等多种公共数据集上进行实验,用来检验本文提出的理论的有效性。大量实验结果通过定量评估的方式,证明了本文所提出的方法的有效性,并超越了大部分已提出的最先进的方法。
其他文献
对虾养殖作为沿海地区的重要支柱产业,为水产养殖业带来巨大的经济效益。但自上世纪90年代以来,白斑综合征病毒(White spot syndrome virus,WSSV)病频发,对对虾养殖业造成了重大损失。虽然针对该病毒做了大量的研究工作,但到目前为止对WSSV感染的致病机理了解的还很少。除了通过改进养殖模式控制病害传播外,对WSSV也没有有效的防控措施。腺苷酸活化蛋白激酶(Adenosine 5
随着我国经济建设的高速发展、工业科技产业的进一步提升与扩大以及城镇化进程的持续深入,对民生、商业和军事领域的用电能源需求与日俱增,而国家电网工程也取得了突飞猛进的发展。防震锤作为电力系统中的重要组件,在输电线路中起到保护导线、保障输电稳定的关键作用。但由于长期暴露于室外,经常遭受风吹雨打、植物侵蚀等影响,易导致出现锈蚀现象,对输电线路的可靠性和安全性造成巨大影响。因此,防震锤的锈蚀检测是电力系统巡
测地线是指限制在曲面上的最短路径,蕴含了曲面的所有内蕴属性,是形状分析的基础。测地线的计算是计算机图形学、计算几何、计算机视觉、路径规划等多个领域共同关注的研究课题。考虑到连续曲面上一般不存在测地方程的闭式解,大多数已有方法在三角网格曲面上寻求以折线作为表示的离散测地线。从目前的研究进展来看,已有研究工作尚不能满足数据多样性和算法普适性两大需求。一方面,三维模型的表达有多种形式,包括点云,网格曲面
近年来,随着智能手机和可穿戴设备的发展,使用智能设备中传感器数据的行为识别受到了越来越多的关注,并已经应用在医疗保健、智能城市等多个领域。现有方法通常基于深度学习技术,避免了手工特征设计。然而,在广泛应用于现实场景之前仍有几个问题急需解决。首先是隐私保护问题。用户的传感器数据携带隐私信息,传统的集中式训练方式很可能导致用户的隐私数据泄露。第二是标签稀缺问题。传感器产生数据的频率通常很高,人工为这些
在逻辑上相互关联的命题上聚合个体判断的任务称为判断聚合。判断聚合过程的操作首先由List和Dietrich等人开始研究,Endriss等人是第一次从计算角度研究判断聚合过程。Baumeister等人扩展了他们关于操纵的结果,并在判断聚合中引入了贿赂和控制的概念,再次聚焦算法和复杂性理论性质。关于控制操作,外部操纵人员可以试图通过增加或删除法官个人判断集的方式来影响选举结果;对于操纵操作,外部人员可
主题模型及其相关方法,通常被用于学习语料库中一系列隐含的主题,以及预测隶属于每个主题的每个文档中每个单词的概率。因此,主题模型是用于学习文本的隐含表示的最主流的方法之一。而基于贝叶斯理论的概率主题模型则是其中最经典的代表。概率主题模型有很连贯的理论证明以及很强的可解释性,适用于长文本。但是现有的大部分概率主题模型都有一个关键性的弱点,就是需要大量的文档数据,进而依赖大量的统计数据来生成可靠的主题。
舞蹈是一种蕴含丰富人文内涵、美学价值的艺术形式,舞者的生理条件和乐感越出众、对编舞的理解越准确,其呈现出的舞蹈通常越专业。随着三维建模技术的发展,以动作捕捉设备为主要工具的舞蹈数字化技术,在数字电影和动画制作领域发挥着重要作用。然而,舞蹈的专业性对舞者的形体动作具有严苛要求,使得动捕过程中的重复采集现象频繁出现,导致专业舞蹈序列的获取成本十分高昂。因此,如何利用智能处理方法提升数字舞蹈序列的专业性
现场可编程门阵列(Field Programmable Gate Array,FPGA)被广泛应用于航空航天、高性能计算、5G通信等领域,具有开发周期短、易升级维护、现场可编程等独特优势,但其硬件安全问题也逐渐显现。硬件木马(Hardware Trojan,HT)攻击近年来已成为FPGA的一大安全威胁,国内外许多机构和学者将机器学习算法与FPGA安全检测相结合,收到了较好的效果。但是,这些研究大多
图被广泛应用于各种领域的关系建模,比如社会学、生物信息学、基础设施、万维网等。现实生活中的图通常是全局稀疏,但局部紧密,也就是平均度数往往相当小。因此,如何在一个大规模的图网络中挖掘出这些紧密子图是一个非常热门的研究课题,它可以帮助人们找到图中的关键节点或者群体。目前的研究中已经给出了很多的紧密子图模型,比如k-core、k-truss、clique等,但这些都只是考虑图的拓扑结构。而真实的网络图
随着智能设备的普及,群智感知逐渐成为一种普适感知新范式。群智感知基于众包理念,其充分利用大量拥有智能设备、具备感知能力的个体,实现海量异构数据的采集,解决大规模数据需求问题。与传统的传感器网络相比,群智感知系统不需要大量部署专门的传感器设备即可获取海量感知数据,大大降低了数据获取的成本。目前,群智感知已经被广泛的应用在对现实物理世界的感知中(如交通信息采集、空气质量监测、城市WiFi勘测等)。尽管