论文部分内容阅读
物体检测,旨在定位并识别图像中的物体,是计算机视觉的核心问题之一。尽管有长达数十年的研究历史,但是在面对真实世界的复杂场景时,物体检测系统的表现依然不尽如人意。作为兼具定位任务与识别任务的复杂系统问题,物体检测始终在计算代价与模型能力的取舍中曲折前进。本文的核心贡献在于寻找能从本质上减少物体检测计算复杂度,同时能增强检测系统能力的方法。本文以基于特征共享的高效物体检测为核心,提出了四种创新的算法。这些算法相互关联、两两结合,被运用在两个检测任务上—其中一个是基于卷积神经网络的通用物体检测,另一个是适用于移动设备的快速人脸检测。本文创新地提出了基于空间金字塔池化的物体检测框架。这个方法打破了不同子图像识别需要完全独立计算的壁垒,使得基于卷积神经网络的检测器可以在多区域分类时实现特征共享,提高了检测系统在进行子区域识别时的计算效率。于此同时,该框架使得卷积神经网络可以处理任意大小的图像,为神经网络的应用提供了更多的可能性。广泛的实验证明该系统可以数十倍的提高检测系统子区域识别部分的计算效率。在以上基于空间金字塔池化的物体检测框架的基础上,本文提出基于全卷积网络的区域生成网络。该网络使用创新的锚点金字塔解决了多尺度/长宽比检测的问题,实现了多尺度检测的特征共享。将该网络与物体检测网络共享特征进一步提高了整个检测系统的效率。多个通用物体识别数据库上的实验证明,我们的系统对十检测系统的性能有明显的提升。更重要的是,我们的检测系统作为首个实现近实时效率的神经网络通用物体检测系统,提高了通用物体检测的研究效率以及实用价值。结合以上提出的两种检测算法,本文提出的通用物体检测系统在显著提高物体检测性能的情况下,实现了超过200倍的加速。基于这套检测系统,我们在世界上最著名的物体检测竞赛—ImageNet竞赛中取得了2015年的冠军。本文针对精确人脸定位—人脸对准任务提出了创新的局部二值特征以及相应的学习方法。该算法结合局部特征学习与全局共享特征回归学习,显著增强了人脸对准模型的性能和计算效率。基于这种特征学习算法的人脸对准系统是目前最快的人脸对准系统。在个人计算机上,本文提出的人脸对准算法可以达到3000帧/秒的计算速度,在手机上也可以实现300帧/秒的计算速度。在以上所提出的二值特征的基础上,本文提出了同时处理人脸检测和对准的联合算法框架。在这个框架中,本文通过在两个任务之间共享所需特征,显著提高了检测精度,同时降低了总体的计算代价和内存消耗。本文提出的这套人脸检测系统是目前世界上最高效的人脸检测系统之基于通用物体检测和人脸检测这两个系统,本文分别提出了子图分类器之间特征共享,以及分类器内特征共享的策略。这些特征共享的策略与框架降低了检测系统的计算复杂度,同时提高了模型的性能与泛化能力。我们相信,本文所提出的高效检测系统会推动物体检测相关领域研究与应用的发展。