论文部分内容阅读
目标检测是计算机视觉领域最热门的研究方向之一,其目的是在输入的图片或者视频中定位所有出现的目标,并确定其每个目标所属的类别,典型的目标检测过程是使用一个边界框将目标紧紧包围起来。得益于卷积神经网络强大的特征提取能力,基于深度学习的目标检测算法在准确度与速度上相较于传统检测算法均取得了巨大的提升,但即便如此,大量冗余候选区域的处理过程已经成为限制算法速度的瓶颈。针对上述问题,本文从减少所需处理的候选区域数量出发,提出了两种基于深度强化学习的目标检测算法:1.联合边框回归的深度强化学习目标检测算法。基于强化学习的目标检测算法在检测过程中通常采用预定义的搜索行动,其产生的候选区域的形状和尺寸变化单一,导致目标检测的精确度较低。为此,在基于DQN的目标检测算法基础上,提出了联合边框回归与深度强化学习的目标检测算法。算法首先由DQN根据初始候选区域所提取的信息决定相应的搜索行动,根据行动选择下一个逼近真实目标的候选区域;然后重复上述过程,直至DQN有足够的信心确定当前区域为目标区域时,终止搜索过程;最后由回归网络对当前区域坐标进行边框回归,达到精确定位的目的。在Pascal VOC单类别数据集上的实验结果表明,通过引入边框回归有效地提高了视觉目标检测的精确度。2.基于多层特征与深度强化学习的视觉目标检测算法。由于不同尺寸大小的目标在不同深度的特征网络上的表达能力不同,仅使用单层特征图的目标检测算法,很难保证所有尺寸大小的目标信息都能得到充分表达,导致此类算法对尺寸变化较大的目标的检测效果较差。因此,为了使不同尺寸大小的目标的特征都能够得到充分表达,本文在基于深度强化学习的目标检测算法基础上,引入多层特征,智能体能够在进行区域搜索同时,按照候选区域-特征映射关系,提取相应的特征层上的特征,实现多层特征与强化学习相结合的目标检测。在Pascal VOC数据集单类别目标检测中的实验结果显示,相较于未使用多层信息的基于深度强化学习的目标检测算法,该算法能够有效提高检测的准确率,验证了本文算法的有效性。