基于可见光与红外图像融合的行人检测

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zhuhande
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
行人检测作为一种计算机视觉任务,能够及时对成像设备产生的图像进行分析处理,为针对行人的后续任务做出保障。由于其在无人驾驶,安全等方面具有重大意义,因此受到了广泛的研究与应用。传统的行人检测方法往往基于单模态的输入数据,如可见光图像,红外图像等。然而单模态数据在特定条件下常常存在缺陷,在处理复杂环境条件下的行人目标时,往往无法获取明确的行人信息,从而使得基于单一模态的行人检测存在较高的漏检以及虚警率,降低检测器的性能。针对上述问题,本文基于可见光与红外图像融合的方式对复杂环境条件下的行人目标进行检测。主要使用模态增强的方式提高模态特征的表征能力,进一步使用共有信息互补与模态间置信融合的方式强化多模态的交互能力,同时使用注意力转移的策略提升网络的全局观。具体工作如下:(1)提出了基于模态增强的可见光与红外图像融合行人检测算法(MA-Net)。针对可见光与红外图像融合行人检测中,模态特征表征能力弱的问题,从三个方面对模态特征表征进行加强。首先,针对模态特征提取分支没有明确标签引导的问题,使用额外监督过程强化模态信息的提取,增强模态分支对目标的理解能力,建立了基于模态增强的可见光与红外图像融合网络训练框架。其次,针对常规多尺度方法训练代价高,融合方式单一的问题,使用基于候选区域池化特征的多尺度自适应融合模块,以一种细粒度的方式将融合聚焦于候选部分,并以自适应的权重对候选特征进行融合,强化模态的特征表示。最后,为进一步在融合特征中保持模态所具有的重要信息,使用基于双约束的生成模块,通过融合特征重构融合图像,并以均方差损失(MeanSquare Error,MSE)保留红外图像中存在的亮度值信息,以全变分损失(Total Variation,TV)保留可见光中存在的细节纹理信息。实验结果表明,所提出的方法提高了不同尺度行人的检测能力的同时保留了快速的检测速度。(2)提出了基于注意力转移的可见光与红外图像置信融合行人检测方法(MIANet)。常规的基于可见光与红外图像融合的行人检测方法中,融合过程可能会存在无区分,无阶段性,无置信度判定的问题,这就限制了数据的交互能力。为了解决这些问题,首先,提出共有注意力机制,以阶段性方式融合模态数据中的共有信息,并保留模态私有的特性。其次,提出置信度融合模块对模态自身可靠性以及交互过程的可靠性进行度量,以度量结果作为融合的依据,实现更合理的模态间融合。最后,针对上述提出的模块中,模块与模块之间往往是相互独立的,使得许多已经获得的信息没得到充分的利用的问题,提出注意力转移策略。针对共有注意力转移,用上一阶段计算得到的共有注意力信息与当前计算获得的共有注意力信息融合,实现阶段性的交互,仅使用上一阶段进行注意力转移主要是为了防止网络的长距离依赖,使得依赖关系清晰明了。针对置信度转移,将所得置信度转移到损失函数计算过程,降低高置信度的损失,提高低置信度的损失,以加强困难样本的检测。所提出的方法充分考虑了模态之间的交互过程,对于存在对齐问题的数据集中的行人以及苛刻条件下的行人目标体现出更加优异的检测性能。
其他文献
随着无线通信技术的飞速发展,微波滤波器作为无线通信系统中不可或缺的重要器件,其生产需求日益增加,其物理结构趋于复杂化和多样化以满足日益严苛的性能要求。从微波滤波器指标确定到成功完成生产是一个相当复杂的过程,其中调试是所有生产环节中所占时间比重最大的环节,调试成本在滤波器生产成本中占有重要地位。随着生产规模的逐渐扩大和微波滤波器结构的不断创新,单纯依靠经验的人工调试带来的时间成本和人力成本都逐渐变得
学位
高光谱图像(Hyperspectral Image,HSI)分类是遥感对地观测领域的一个重要的分支,其应用范围较为广泛,因而极具研究价值。由于实际标签样本获取较为困难,一般的基于深度学习的HSI分类算法的性能欠佳,因此小样本问题是HSI分类领域急需解决的难题。高光谱像元包含丰富光谱信息,并且临近像元之间具有很强相关性,因此充分利用像元的光谱信息和周围邻域的空间信息对提高分类性能至关重要。同时,虽然
学位
电子信息产业的迅速崛起促进了基于光电探测器件的光电传感器发展。环境光传感器和接近传感器芯片被广泛应用于消费电子、工业、医疗等设备,提供了诸多智能化控制。然而,随着芯片应用场景的扩大,将环境光传感器和接近传感器集成到一个芯片中以实现芯片面积最小化和功耗最低化的方式成为了环境光传感器和接近传感器的研究热潮。本论文对环境光传感器动态范围、暗电流抑制、红外接近传感器中背景光抑制等关键技术进行研究,基于3.
学位
随着计算机技术和深度学习的飞速发展,视频目标检测技术得到了很大提升。在实际工业应用中我们对模型的轻量化和实用性提出了更高的要求。目前基于深度学习的视频目标检测方法主要使用静态推理方法,不仅降低了模型的表达能力,而且不能满足不同设备对多样性算力的需求。本文主要研究内容是设计基于动态神经网络的视频目标检测网络、高效的动态推断方法和特征融合等,可以实现低能耗的视频目标检测。具体工作如下:(1)提出了基于
学位
语义分割任务一直是国内外众多学者的研究热点,在自动驾驶、智慧安防和新零售等领域具有广阔的应用前景。目前,随着深度学习的广泛应用,基于深度学习的全监督语义分割实现了语义分割性能上的巨大突破,然而这种性能的提升依赖于对大量的训练图像进行逐像素的人工标注,这种昂贵的标注方式无法实现对社交网络中海量图像数据的充分利用。因此,近年来人们逐渐将关注点投入到弱监督语义分割任务中,基于弱监督的语义分割方法仅需要图
学位
高光谱图像包含丰富的空间和光谱信息,在地质、植被生态、农业、海洋等领域得到了越来越多的应用,其中,高光谱图像分类是高光谱应用中一项较为核心的任务。由于深度学习在近些年来的发展,许多使用深度学习技术的分类方法被应用于高光谱图像分类。深度学习往往需要大量的训练样本来拟合模型,然而,高光谱数据的获取和标注往往比较耗时耗力,另外高光谱图像大量的波段引发的维数灾难问题更加剧了这一问题。因此,探究一类针对样本
学位
医学图像配准是医学影像处理中的重要环节,其通过构建不同图像在对应组织结构上的空间一致性,在精准医疗等临床应用中有着重要地位。由于传统配准方法已无法适应日趋复杂的图像数据以及更高效的诊疗速度要求,基于深度学习的医学图像配准方法应运而生。但这类方法预测的变形场往往具有折叠、体素漂移、非光滑等问题,且可训练参数随着网络复杂度呈指数增长。鉴于偏微分方程(Partial Differential Equat
学位
本文研究基于卷积神经网络的传统中医舌象诊断算法。论文使用目标检测、语义分割和图像识别卷积神经网络相结合的方式,实现将中医舌象诊断结构化和客观化。论文首先着手研究中医舌象诊疗理论,学习舌诊相关知识,掌握舌象诊断方法,为之后舌象诊断标准化打下基础。本文依照中医理论将舌象划分出舌色与舌质两个方向。从舌色角度出发,将舌色归类出青紫舌、绛红舌、淡红舌和淡白舌。从舌质角度出发,将舌质归类出裂纹苔、芒刺苔、滑腻
学位
随着集成电路和微机电系统的不断发展,低功耗电子器件逐渐得到了广泛的应用。传统的为低功耗电子器件供电的方式是采用化学电池,但是化学电池存在使用寿命有限、维修成本高及环境污染大的问题。收集环境中可再生能源的能量收集技术则成为化学电池的一种有效的替代品。环境中的超低频(<5 Hz)机械运动中蕴含的能量由于其存在广泛而受到研究者的关注。然而,传统的收集机械能的振动式、摆动式和旋转式俘能器因其输出性能较差及
学位
随着计算机视觉领域的发展,一系列依赖于计算机视觉的应用场景和解决方案纷纷涌现,如自动驾驶、智慧安防等等。这些智能应用技术都离不开计算机视觉中的目标检测这个关键任务。目标检测任务根据输入信息源可以分为多类,本文旨在研究二维图像中的目标检测。该任务可以描述为给定二维图像,输出其中存在的已知类别的目标实例的类别及位置。现有的代表性目标检测方法大都仅仅依靠目标区域的局部特征独立地对每个候选目标进行检测。这
学位