论文部分内容阅读
                            
                            
                                目标检测是计算机视觉的根本问题之一,是图像分析与理解等大量高级视觉任务的基础,目前广泛应用在公共安全、辅助驾驶、智能医疗、工业检测等多个领域。行人重识别技术是人脸识别的替代性方案,可与目标检测技术相作用,将人工智能的认知水平提高到一个新台阶。无论从理论角度还是应用角度来看,目标检测与重识别都有着巨大的研究价值。随着深度学习春天的到来,目标检测与行人重识别领域近些年来取得了飞速进展,他们的共性关键技术是使用基础卷积神经网络作为特征提取器。相对于由人工设计的传统特征描述子而言,卷积神经网络有着更强的语义层表达能力,可与具体的目标检测与重识别框架相搭配,取得瞩目的的精度提升。尽管如此,作为智能图像视频分析系统核心技术的目标检测与重识别算法,在实际应用中依旧面临着诸多挑战。在现有的目标检测算法当中,双阶段目标检测器的优势在于检测精度高,单阶段目标检测器则着力于提高算法的运行速度,两者都很少能够获得检测精度与检测速度的双赢;纵观行人重识别这一领域,多数算法更是集中力量于挖掘更有区分性的人体部位特征,却忽略了计算量成倍增加的代价。本文针对上述不足提出了几种算法,他们的共同点是使用了特征融合的策略,较好地实现了目标检测与重识别任务当中精度与计算量的平衡。本文的主要工作及贡献如下:(1)本文提出了特征选择性网络,较好地取得了双阶段目标检测器中检测精度与计算量的平衡。根据不同候选框的位置形变特性,特征选择性网络引入了子区域注意力图和纵横比注意图的机制,并提取出维数可变的可选择性特征。通过降低可选择的特征维数与简化检测子网络的方式,特征选择性网络大大减小了候选框子网络的计算量。搭配不同的基础网络,特征选择性网络在不同的测试数据集上均取得了鲁棒的精度提升。(2)本文提出了联合性锚点框融合网络,搭配不同的单阶段目标检测框架取得了通用的检测精度提升。通过预设锚点框与联合性锚点框的联合训练,联合性锚点框融合网络解决了单阶段目标检测器中少数特征点回归的不稳定问题。另外,本文创新性地设计了4D线性插值的池化方式,使得全卷积目标检测器收获了检测精度与运行速度的双重提升。(3)本文首次解释了传统分类损失函数在行人重识别任务上表现不好的原因,并通过多分支全连接层的简单设计大大改善了这一状况。基于分类损失函数和图像全局特征,本文提出了基于通道组全局特征的图像重识别网络,在不同的行人重识别数据集和车辆重识别数据集上均取得了较大的精度提升。更重要的是,通道组全局特征大大降低了匹配特征向量的维数,从而大幅提高了行人重识别的匹配速度。针对双阶段目标检测器,单阶段目标检测器和行人重识别网络,本文提出的相关算法在设计过程中均使用了特征融合的策略,具体表现为双阶段目标检测器中选择性注意力图的融合,单阶段目标检测器中不同锚点框的融合,以及行人重识别网络中多通道组特征的融合。这些特征融合的策略与对应的算法框架相适应,降低了目标检测与重识别系统的计算复杂度,同时提高了训练模型的泛化性能。