论文部分内容阅读
随着人工智能以及计算机视觉领域的不断发展,计算机视觉领域中的识别、追踪、检测等研究技术也被广泛地应用,譬如自动驾驶等智能交通、维护社会安稳的智能监控和智能家居等应用领域。作为计算机视觉领域其中的一个重要研究方向,人体目标检测在近十几年来吸引了大量的研究工作,因此得到快速的发展并且它的性能也得以不断地提升。然而人体目标检测技术仍然存在极大的挑战,基于不同场景中的迁移学习以及半监督学习的人体目标检测是目前需要解决的一大难题。从不同的场景中收集到的图像之间的差异是较大的,尤其是特定场景之间。譬如车载摄像头和广场的监控摄像头拍摄的图片,它们的视角、遮挡情况、背景等都是不同的。因此,将一般性的人体目标检测器直接应用到特定场景的时候往往会导致该检测器的性能下降。所以将一般性的检测器适应到特定场景的方法具有显著的意义。基于以上的需要和挑战,本文旨在解决场景适应的人体目标检测任务。本文首先对人体目标检测的研究背景和意义进行介绍,并且根据目前国内外的研究现状,围绕如何从一般性的场景中迁移有用的知识或者特征使得检测器能够适应特定场景进行了研究,提出了一种选择性集成的方法来将检测器适应到特定场景中,并结合深度学习技术提升检测器在特定场景中的检测性能。首先,我们设计一种选择性集成的方法来选择一组决策树并赋予每棵树合适的权重来进行重组。本文认为使用一般性场景的数据集训练的决策森林中的决策树能够捕捉到重要的对目标场景的人体目标检测有帮助的人体特征。重组后的决策森林用于从目标场景中收集大量的高置信度的样本,从而扩增训练样本。此外,我们设计了一个加权的卷积神经网络,并且使用扩增的训练集来训练该神经网络,使得能够基于少量人工标注的样本和大量的高置信度的样本得到性能更好的场景适应的检测器。该卷积神经网络和前面的重组决策森林级联在一起,从而构成了一个级联的检测器。最后,通过实验验证了我们所提出的场景适应方法和级联检测器的有效性,并且与其他顶尖的领域适应的人体目标检测方法进行了对比实验,阐明了本文方法的优越性和价值,以及对实验结果进行了详细的分析。最后本文总结了主要研究工作和贡献,以及本文所提出的级联检测器仍存在的不足之处并思考了一些改进的方案,然后对未来的研究方向进行了猜想。