【摘 要】
:
随着智能安防,智慧城市等领域的发展,行人重识别技术受到越来越多的关注。目前,大多数行人重识别方法都是利用有标签的数据集进行训练,这些方法需要大量人工标注,并且缺乏扩展能力,因而在具有域差异的其他数据集上性能会显著下降。在现实生活中,行人会在不同域的场景出现,因此研究跨域行人重识别方法具有重大价值。本文通过注意力机制和姿态估计来提升跨域行人重识别方法的性能,主要研究工作有:(1)针对跨域行人重识别中
论文部分内容阅读
随着智能安防,智慧城市等领域的发展,行人重识别技术受到越来越多的关注。目前,大多数行人重识别方法都是利用有标签的数据集进行训练,这些方法需要大量人工标注,并且缺乏扩展能力,因而在具有域差异的其他数据集上性能会显著下降。在现实生活中,行人会在不同域的场景出现,因此研究跨域行人重识别方法具有重大价值。本文通过注意力机制和姿态估计来提升跨域行人重识别方法的性能,主要研究工作有:(1)针对跨域行人重识别中基干网络缺乏特征选择能力的问题,设计了更有效的基干网络。对卷积核注意力(Selective Kernel Networks,SKNet)进行改进,提出多尺度分支权重融合的卷积核注意力机制(Multi-branch Selective Kernel Networks,MSKNet)。MSKNet有不同尺度、不同形状的感受野分支,并且在不同感受野特征的选择阶段加入多尺度池化分支,获得更多细节信息,使注意力权重分配更加合理,然后将卷积核注意力MSKNet和自注意力(Non-local Block,NL)嵌入到Res Ne Xt50网络中,得到更精准的基干网络。基干网络中的MSKNet提升了对不同感受野特征的选择能力,Non-local模块提升了捕获长范围特征依赖的能力。通过实验结果分析,验证了本文提出的基干网络具有较好的效果。(2)针对跨域行人重识别中多变的背景干扰和遮挡问题,设计了姿态估计引导的多分支网络(Multi-branch Pose-guided Networks,MPOSENet)来使模型专注于人体区域特征。使用姿态估计得到人体姿态关键点,进而获取姿态估计引导的特征,过滤了背景和遮挡等无关特征。MPOSENet中设计了姿态估计引导的局部特征分支,全局特征和姿态估计引导的局部特征的融合特征分支,姿态估计引导的分块特征分支,通过多分支网络进行学习,既捕获了局部细节信息,也关注了全局特征中的信息,从而使模型提取的特征更全面更有效。通过多组实验,验证了MPOSENet对模型的泛化能力有提升作用。(3)为了发挥模型的实用价值,以上述提出的跨域行人重识别模型为核心,设计了一个行人重识别系统,并完成了系统的开发与测试工作。
其他文献
视觉问答属于计算机视觉和自然语言处理的交叉研究领域,它需要对不同模态输入的图像和文本进行处理,给出一个符合人类思维的合理答案。视觉问答在盲人群体、图像检索、交通出行、媒体娱乐等方面有广泛应用,因此有重要的研究价值。在视觉问答早期的研究方法中问题和图像之间的交互大多很简单,忽略了每个问题单词和每个图像区域之间的密集交互,这不足以对图像和问题之间潜在的复杂关系进行深度建模;此外,大多数方法还忽略了同种
基于Wi-Fi信道状态信息(Channel State Information,CSI)的人体动作识别是最近兴起的一项技术,它可以实现低成本的人类活动感知,避免隐私泄露,同时具有非接触、不受光照影响等优点。然而,基于Wi-Fi CSI的动作识别技术一大难点是跨场景识别,这会带来一系列的挑战,例如模型复杂、目标场景数据是否充足以及动作特征提取算法能否在目标环境中表现稳定等问题。随着Wi-Fi的大规模
波达方向(Direction of Arrival,DOA)估计通过分析接收到的传感器阵列数据来估计信号的角度,以便更好的进行波束形成或确定目标位置。传统的DOA估计方法都是参数化的,它们假设输入与输出之间的映射关系是可逆的。而在真实的DOA估计场景中,信号会受到各种未知因素的干扰,例如阵列误差和阵元失效等,这些未知干扰会对传统DOA估计方法的性能产生很大影响。另外,基于机器学习的DOA估计方法极
能谱计算机断层扫描(MECT)的新一代自适应统计迭代重建(ASi R-V)技术在临床影像学上应用广泛,成像过程中不同的能量值和ASi R-V混合权重对图像质量有不同程度的影响,因此对眼动脉能谱CT图像进行精准的质量评估至关重要。传统的图像质量评估方法包括主观和客观两个角度,由于医学图像的复杂性和特殊性,主观评估耗时耗力且观测者间存在主观差异,并且医学图像客观无参考质量评估没有统一完善的方法。使用深
毫米波(Millimeter-wave)技术有望在未来几代移动通信技术以及成像、监测等信息领域中发挥关键作用,雪崩渡越时间(Impact-Ionization-Avalanche-Transit-Time,IMPATT)二极管作为毫米波固态源在效率、功率特性等方面有着明显优势。第三代半导体材料(SiC,GaN)有着临界电场高、载流子迁移率高、导热率高等优点,已成为人们备受关注的IMPATT二极管等
微表情是一种人类在试图隐藏某种情感时无意识做出的,短暂的面部表情,其持续时间仅0.04秒至0.2秒。与之相对的,持续时间在0.75秒至2秒的表情被称为宏表情。微表情作为一种自发的面部表情,是无法人为控制的,因而微表情相较于宏表情能够更准确表现出人们内心的真实情感。基于这种特性,微表情在精神疾病的诊断和重大犯罪案件的审讯等方面具有重要的参考价值。传统的微表情识别方法首先提取手工设计的特征,然后使用机
人工智能技术的发展极大地提高了人类的生活品质,其中行为识别技术已经被应用于多个领域,在教育领域也受到研究者的追捧,逐渐成为教学智能化的研究热点。针对视频识别教学动作的研究已经取得了一定的成果,但仍存在视觉盲区、隐私泄露、对人物细微动作变化不敏感等问题,同时传统残差网络很难有效提取Wi-Fi数据的通道特征和时空特征信息。针对这类问题本文主要利用Wi-Fi信道状态信息(Channel State In
乳腺癌已成为世界上最常见的癌症,如果能尽早发现并加以治疗,乳腺癌的致死率能够极大降低。乳腺癌发病率和发病人数持续增加,而人工无法实现大规模的普筛和早期诊断,导致很多潜在病例没有在早期发现而错失了最佳治疗时机。计算机辅助诊断(Computer-Aided Diagnosis,CAD)系统能够辅助医生实现快速诊断,使乳腺癌的大规模筛查成为可能。然而,乳腺肿瘤CAD系统的诊断性能依赖于精确的感兴趣区域(
光催化降解技术由于具有工艺简单、生态友好、经济、降解率高等特点,成为了废水治理的主要手段。在众多半导体光催化材料中,Bi2WO6由于具有良好的可见光响应、较高的稳定性、较强的氧化能力、无毒无害和制备成本低等特点,近年来得到了研究人员的广泛关注,然而较高的光生载流子分离效率和较低的可见光利用率仍不能满足日益苛刻的废水治理需求。本文采用简单的水热法,通过改变不同反应条件,获得光催化性能较优的Bi2WO
Hashtag作为社交网络上的特有属性之一,在信息整合、事件检索以及话题参与等方面发挥着重要的作用。然而社交网络上的Hashtag使用率较低,使得Hashtag不能发挥应有的作用。因此如何给用户推荐合适的Hashtag,从而提高用户对Hashtag的使用成为一个热点研究问题。现有的Hashtag推荐研究主要集中在单一模态信息的Hashtag,对于利用多模态信息以及用户历史习惯信息的Hashtag关