【摘 要】
:
随着计算机技术和深度学习的飞速发展,视频目标检测技术得到了很大提升。在实际工业应用中我们对模型的轻量化和实用性提出了更高的要求。目前基于深度学习的视频目标检测方法主要使用静态推理方法,不仅降低了模型的表达能力,而且不能满足不同设备对多样性算力的需求。本文主要研究内容是设计基于动态神经网络的视频目标检测网络、高效的动态推断方法和特征融合等,可以实现低能耗的视频目标检测。具体工作如下:(1)提出了基于
【基金项目】
:
国家自然科学基金创新研究群体基金(61621005); 国家自然科学基金重点项目(61836009); 国家自然科学基金重大研究计划(91438201、91438103,91838303); 国防科技173计划项目; 国家自然科学基金(U1701267、62076
论文部分内容阅读
随着计算机技术和深度学习的飞速发展,视频目标检测技术得到了很大提升。在实际工业应用中我们对模型的轻量化和实用性提出了更高的要求。目前基于深度学习的视频目标检测方法主要使用静态推理方法,不仅降低了模型的表达能力,而且不能满足不同设备对多样性算力的需求。本文主要研究内容是设计基于动态神经网络的视频目标检测网络、高效的动态推断方法和特征融合等,可以实现低能耗的视频目标检测。具体工作如下:(1)提出了基于动态神经网络的视频目标检测方法,改变目前深度学习网络静态推理范式,节约和高效利用计算资源。在此方法中,主要包括动态网络骨干MHRes Net和针对视频目标检测的随时检测模式和预算批检测模式。MH-Res Net得到多个不同资源要求的早停点来自适应不同的样本难易。两种检测模式可以让网络更加高效的利用硬件资源。在ImageNetVID数据集上,验证了基于动态神经网络视频目标检测算法的有效性。(2)提出了基于视频时空特性动态推断方法,解决了每个样本都需要依次判断早停点,加快了推理速度和精度。在此方法中,主要包括阶梯动态推断方法和无阈值的阶梯动态推断方法。阶梯推断方式,保证每一帧在推断过程中只通过一个子网络,且以无跨越的方式对子网络的选择进行更新。而无阈值的阶梯动态推断方法,去除了离线寻找阈值的复杂操作,提高了网络的推理效率和表达能力,让模型的推断时间进一步缩短。在Image Net VID数据集上,验证了基于视频时空特性动态推断方法的有效性。(3)提出了基于时序特征聚合的动态视频目标检测方法,增强了检测结果,同时改善了遮挡,形变,脱焦和运动模糊等问题。在此方法中,主要包括融合全局信息和局部信息的特征聚合模块。特征聚合模块使用基于Transform的关系模块,可以将局部和全局的信息和当前帧信息进行融合,强化当前帧的特征,使目标的特征信息更加丰富完整。在ImageNetVID数据集上,验证了基于时序特征聚合的动态视频目标检测方法的有效性。
其他文献
人脸识别一直是计算机视觉和模式识别领域最关注的问题。近年来人脸识别技术取得了日新月异的发展,但在遮挡人脸识别领域的研究却很少,有待进一步发展与完善。由于COVID-19疫情的爆发,越来越多的人开始在公共场合佩戴口罩。口罩的多样性会产生各种各样的面部遮挡问题,这给人脸识别带来了很大的影响。传统的遮挡人脸识别方法由于缺乏用于训练的大规模遮挡人脸数据集,难以准确识别遮挡人脸图像。此外,现有的上下文注意力
在高中化学教学中开展爱国主义教育,可以从现行化学教材、化学高考题中深度挖掘爱国主义教育的资源,再利用信息技术、任务群、人物传记等多种方式把科学文化知识学习和爱国主义教育融于一体,实现立德树人之教育使命。
随着互联网和智能手机的普及,信息传播媒介逐渐从以文本为主过渡到以图像视频为主。目前,互联网上每天会产生海量的视频数据,亟需设计高效的智能算法对视频进行自动分析。视频描述技术是一种理解并分析视频内容的方法,旨在将视频转换为一段描述视频内容的文本。目前,基于深度学习的视频描述算法已取得不错的结果,但是在提取视频语义信息方面还存在诸多问题,如利用动态特征中的时序信息、加强关键目标的作用、发挥多层级视觉特
随着遥感技术的飞速发展,目前可获得的遥感数据越来越丰富,针对遥感数据的场景理解也越发引起关注。语义分割任务作为遥感数据场景理解中的重要任务,有着极其广泛的应用。虽然基于深度学习的方法已在遥感图像分割领域取得了优异的效果,但还存在资源消耗大、边缘分割困难、上下文处理方法仍需优化等问题。针对这些问题,本文结合多任务学习、注意力机制及类别上下文增强思想对遥感图像语义分割展开研究。本文主要研究内容如下:1
在中国,肝癌的发病率和死亡率常年居于高位。目前肝癌患者在治疗过程中通常通过多时相CT扫描来确定自身肝肿瘤的情况。利用计算机实现CT图像中肝肿瘤的自动分割不仅节省了手动标注需要的人力物力,还降低了人为标注过程中因主观因素造成的误标漏标风险。多时相CT扫描包括按时间顺序获得的动脉期图像、门静脉期图像和延迟期图像三期图像。其中动脉期和门静脉期图像的成像时间相近,图像中各器官组织结构相似,延迟期图像中各器
随着计算机运算能力的提升和深度学习技术的迅速发展,基于深度学习的行人重识别方法相较于传统行人重识别方法在识别精度上有了很大的提升。然而,基于深度学习的行人重识别方法通常采用深度卷积网络作为行人特征提取骨干网络,利用高维特征表示行人,这引入了大量的参数量和计算量。本文主要研究内容是设计轻量的行人特征提取骨干网络、轻量的行人特征对齐模块和高效的散列层,可以快速且准确地进行行人重识别。具体工作内容如下:
随着无线通信技术的飞速发展,微波滤波器作为无线通信系统中不可或缺的重要器件,其生产需求日益增加,其物理结构趋于复杂化和多样化以满足日益严苛的性能要求。从微波滤波器指标确定到成功完成生产是一个相当复杂的过程,其中调试是所有生产环节中所占时间比重最大的环节,调试成本在滤波器生产成本中占有重要地位。随着生产规模的逐渐扩大和微波滤波器结构的不断创新,单纯依靠经验的人工调试带来的时间成本和人力成本都逐渐变得
高光谱图像(Hyperspectral Image,HSI)分类是遥感对地观测领域的一个重要的分支,其应用范围较为广泛,因而极具研究价值。由于实际标签样本获取较为困难,一般的基于深度学习的HSI分类算法的性能欠佳,因此小样本问题是HSI分类领域急需解决的难题。高光谱像元包含丰富光谱信息,并且临近像元之间具有很强相关性,因此充分利用像元的光谱信息和周围邻域的空间信息对提高分类性能至关重要。同时,虽然
电子信息产业的迅速崛起促进了基于光电探测器件的光电传感器发展。环境光传感器和接近传感器芯片被广泛应用于消费电子、工业、医疗等设备,提供了诸多智能化控制。然而,随着芯片应用场景的扩大,将环境光传感器和接近传感器集成到一个芯片中以实现芯片面积最小化和功耗最低化的方式成为了环境光传感器和接近传感器的研究热潮。本论文对环境光传感器动态范围、暗电流抑制、红外接近传感器中背景光抑制等关键技术进行研究,基于3.