【摘 要】
:
图像目标检测是视觉分析和理解的重要基石,旨在识别图像中所有目标类别并用外接矩形定位。随着大数据、人工智能、计算机视觉技术迅速发展,基于深度学习的目标检测算法取得了突破性成果,使目标检测技术广泛应用于智能医疗、安防监控、智慧交通、自动驾驶等各个领域。虽然深度学习算法在复杂场景中的效果远超传统算法,但是其网络模型存在的一些问题依然限制了检测精度和效率,例如:深度多尺度特征表达能力不强、不同类别样本数量
论文部分内容阅读
图像目标检测是视觉分析和理解的重要基石,旨在识别图像中所有目标类别并用外接矩形定位。随着大数据、人工智能、计算机视觉技术迅速发展,基于深度学习的目标检测算法取得了突破性成果,使目标检测技术广泛应用于智能医疗、安防监控、智慧交通、自动驾驶等各个领域。虽然深度学习算法在复杂场景中的效果远超传统算法,但是其网络模型存在的一些问题依然限制了检测精度和效率,例如:深度多尺度特征表达能力不强、不同类别样本数量不平衡、预测框质量低、训练过程任务级失衡、非极大值抑制过程性能低、大模型推理速度慢且能耗高等。虽然最新的研究工作对它们进行了一些改善,但是仍有一系列缺陷亟需改进。因此,针对其中待解决的四个问题,深入分析研究了基于深度神经网络的多尺度目标检测算法,主要研究内容与成果如下:针对深度多尺度特征表达能力不强的问题,提出了一种基于通道信息增强的特征金字塔网络。通过总结与分析,认为该问题是由特征金字塔网络存在的三种缺陷导致的,现有方法常以经验和直觉对其中一个问题进行模型设计。为了更有针对性地改善问题,设计了亚像素跳跃融合模块来减轻通道信息衰减、亚像素上下文增强模块来缓解特征融合的稀释、通道注意力引导模块来改善融合过程的混叠效应。所设计的网络模型新颖地借鉴了超分辨率任务中的亚像素卷积,并引入了上下文信息和注意力机制。实验结果表明,所提出的方法增强了多尺度特征,较好地改善了特征金字塔网络存在的结构问题,在精度和速度方面均优于同类方法。多尺度检测器中各个尺度之间存在的训练失衡问题未引起关注。多尺度训练可以看作为多任务学习,实验发现各尺度损失值频繁波动,并且取值范围皆不相同,这会导致某些尺度未被充分训练,影响模型整体精度。为了解决该问题,提出了一种动态多尺度目标检测损失优化算法。具体而言,受到不确定性任务加权的启发,设计了一种自适应方差加权方法统计各尺度损失值方差来动态调整其权重,比基于反向传播训练的权重更具可解释性;然后设计了一种强化学习优化算法进一步研究训练失衡并优化方案。实验结果说明了一阶段检测器的高级别尺度未得到充分训练,所提出的算法改善了多尺度检测器训练不平衡,提升了模型整体精度约1%AP。在上述两个研究工作的基础上,提出了一种基于强化学习的多尺度检测器训练策略,以改善多尺度特征级与任务级失衡问题。多尺度检测器中的每个尺度不能被同等并独立对待,因此设计了一种动态特征融合算法,在训练阶段放大重要特征尺度的影响以改善特征失衡,而未引入额外的模型参数。同时设计了一种补偿尺度训练算法加强对训练不足的尺度的监督。整体算法借鉴马尔科夫决策过程,以多尺度损失值设计状态和奖励,共同优化两个失衡问题。实验证明所提出的算法在不增加计算负担的同时提升了模型整体精度,达到了48.1%AP。针对深度学习检测模型能耗高的问题,提出了一种基于脉冲神经网络的多尺度目标检测模型。脉冲神经网络模拟大脑神经以离散二值信号进行信息传输,在神经形态芯片上能以极低功耗运行。在现有的脉冲神经网络研究基础上,所提出的模型引入了多尺度框架,优化了脉冲模型转换方案,并根据生物神经学现象设计了相应的编码方法以加速信息传递。实验验证了图像分类任务中的一些脉冲模型转换方法不适用于目标检测问题,证明了所设计的模型检测优于现有方法,且运行能耗以数千倍低于依赖显卡运行的常见检测模型。所提出的基于深度神经网络的多尺度目标检测算法较好地改善了现有方法存在的一些问题,从精度与效率两方面提升了检测器的性能,可应用在小目标检测、大目标检测、低功耗检测等具体的任务场景中。
其他文献
现代工程产品稳健性优化设计过程中,数值仿真分析成为产品性能评估不可或缺的手段,高精度的设计要求带来了高耗时的仿真成本。同时,目标函数/约束条件高度非线性且隐式的特征,带来了稳健性优化求解困难等挑战。变可信度近似建模方法通过有效融合高/低精度分析模型的数据,建立近似模型替代耗时的目标函数/约束条件,为这类问题的高质高效求解带来了有效途径。然而目前对基于变可信度近似模型的稳健性优化设计方法的研究尚有一
在非平衡系统中,由于局部动力学过程和扩散运输的相互作用,会产生各式各样的图案现象,其中一种是“激励系统”中的行波现象。本文主要研究了两类激励型快慢系统的行波解的稳定性:蔡氏电路的耦合阵列的一个近似偏微分方程和一个反应-扩散-力学模型。这两个模型都和Fitz Hugh-Nagumo系统具有很多相似之处,而后者是激励型快慢系统的一个典型例子。本文分别利用两种不同的方法:Evans函数法和Lin-San
普鲁士蓝因其具有框架结构开放、框架间隙大、原料来源丰富、合成工艺简单等优点,被认为是极具应用价值的钠离子电池正极材料。然而普鲁士蓝存在电导率低、结构稳定性差等缺点,并且对晶格中的缺陷、间隙水含量等因素敏感,导致其比容量、循环稳定性和倍率性能与理论预测值存在较大偏差。本文以铁基普鲁士蓝为研究对象,通过复合包覆、富钠化合成、阴离子修饰、形貌调控等手段,提高其导电性、结构稳定性,降低晶格缺陷和间隙水含量
无线通讯的5G时代,对通讯系统的低时延和低损耗提出了更高要求,低介微波介质陶瓷因介电常数(εr)低和品质因数(Q×f)高的优点被广泛用于高端微波介质器件和基板中。但低介微波介质陶瓷的谐振频率温度系数(τf)一般为较大的负值,近零的τf值才有助于器件在工作时保持谐振频率的温度稳定。CaSnSiO5陶瓷具有低εr、高Q×f和反常正τf值的特点,可能是一种新型的τf值调控剂,但CaSnSiO5陶瓷具有高
在数字时代,有效使用信息的能力是影响组织决策的核心因素,但其在政府决策中的作用机理却较少得到关注。本文结合资源基础理论和动态能力理论,构建了基于信息能力的政府决策过程分析框架,并运用该框架对数字化改革先发省份基层智治大脑唯一市级试点——Q市进行个案分析,系统考察基层智治大脑在提升政府信息能力的同时重塑决策过程的具体机制及实际效果。研究发现,“大脑”的应用显著强化了政府对决策信息的获取、配置、整合、
随着我国双碳战略目标的推进与实施,提高能量利用效率与减少排放已成为当下的重要议题,在生产生活中有总量较多的小规模余热被排放到大气中,如车船尾气余热、小规模工业流程废热等,当这些场景对冷量有需求时,采用氨吸收式制冷技术可以对包括尾气余热在内的小规模余热进行回收并提供冷量,以提高能源利用效率。本文围绕尾气驱动的小型氨吸收式制冷系统进行了理论与实验研究。1)构建了尾气驱动吸收式制冷系统理论循环的数学模型
飞行器智能蒙皮技术是改变未来先进飞行器设计及实现自主飞行的一项革新技术,具有自诊断、自适应、自学习、自修复等能力。飞行器需要实时监测飞行过程中的环境气动参数(如压力、温度、速度)以及结构状态参数(如应变、振动、冲击)。然而目前柔性智能蒙皮及其核心传感器的研究还处于小面积、单功能、低速测试的初级阶段,无法满足飞行器表面的大面积、非平面、多参数、精细化等测量需求。锆钛酸铅(PZT)传感器既对压力信号又
高光谱图像数据的低空间分辨率和光谱变异性等特征,引起的混合像元问题严重制约了高光谱图像的精准应用。尽管深度学习算法在解决混合像元问题上表现出不俗的实力,但仍存在难于充分融合先验信息、缺失重要端元信息等问题,导致解混性能不佳。针对上述问题,本学位论文基于自编码器框架,结合积分概率度量和率失真理论,设计出一系列有效的高光谱图像解混算法,具体研究工作概括如下:(1)针对现有解混算法难于充分融合先验信息导
大型托卡马克装置稳态强杂散磁场引起的电力与电子设备失效问题是其稳定运行的潜在威胁,磁场抗扰度测试是托卡马克装置现场设备准入性检验的主要技术手段。大口径稳态磁场线圈是抗扰度测试系统的核心部件,主要用于产生测试所需的大空间均匀强磁场。为实现中国聚变工程实验堆(China Fusion Engineering Test Reactor,CFETR)现场设备的抗扰度测试,国家重大科技基础设施项目“聚变堆主
血流速度异常是微血管功能障碍的迹象之一。因此,连续监测血流速度变化对于评估微血管功能和解析基础研究中的病理学机制具有重大意义。激光散斑成像是一种无接触、宽场、高时空分辨率和低成本的血流速度检测技术,在临床诊疗方面取得了广泛应用。然而,诸多因素影响了激光散斑血流检测的准确性,其中包括与成像系统有关的相干性损失和光电探测器噪声、与生物组织特性相关的电场自相关函数形式、与静态散射相关的非各态历经性成分以