论文部分内容阅读
计算机视觉中的很多研究对象都可以分解为结构学意义上的多个部件的组合,比如人体可以分解为头、躯干和四肢,而人脸可以分解为眼睛、鼻子、嘴巴和下巴等。检测对象所包含的部件是计算机视觉中一项重要而基础的任务,基于部件检测,我们可以:1)规整化对象姿态;2)提取兴趣区域;3)计算局部特征;4)推理语义信息等。除了结构学意义上的部件,我们还可以定义带有某些特殊属性的部件,并通过检测图片中是否包含这类部件来判定图片的类别。比如,我们可以通过检测图片中是否包含带色情信息的人体部件*来判定给定图片是否为色情图片。一般而言,一个对象的多个部件之间具有一定的空间关系,这种空间关系在同时检测多个部件的过程中会起到重要的约束作用。然而,对于不同的对象,部件间空间关系的强弱各不相同。比如,人体部件之间的关系相对灵活-手臂既可以在肩上方,也可以在肩下方,而人脸部件之间的关系则相对固定-鼻子只能在眼睛下方,而不能在上方。此外,如果我们的检测目标是某一类部件(比如人体色情部件)而非多个不同的部件,部件检测问题就退化为一般意义上的对象检测问题,检测过程中不需要考虑部件间的空间关系。目前的文献中通常把不同的部件检测任务作为独立的课题来研究,比如人体部件检测(又叫姿态估计)和人脸部件检测(又叫人脸对齐)通常被认为是计算机视觉中两大不同的课题。据我们所知,目前还没有一篇论文从横向角度来观察和分析不同的部件检测任务,并揭示它们之间的区别和联系。为了填补这一空白,本论文按部件间空间关系从无到弱到强的顺序-从人体到人脸(?),以无空间关系-色情部件检测,弱空间关系-人体部件检测,强空间关系-人脸部件检测这三个具体的任务为例,针对每一个任务分别提出了自己的新算法,并讨论了空间关系强弱对于部件检测建模思路的影响,以及其它若干重要的问题。具体而言,本文的主要贡献可以总结为以下四点:1)研究了如何利用部件检测技术识别色情图片。我们首先给出了色情部件的定义,包括关键色情部件和目标色情部件;然后提出了一种度量任意图像块色情程度的方法,解决了目标色情部件定义中涉及的主观性和模糊性的问题;最后提出了一种深度加权多示例算法,在训练色情部件检测器的过程中显式地嵌入了不同示例的色情程度。为了评估本文方法的性能,我们收集了一个包含138,000色情图片和205,000张正常图片的大型数据库,并且在100,000张色情图片和100,000张正常图片的测试集上取得了优异的结果:False Positive Rate 1%的情况下,True Positive Rate达到97.52%。2)提出了一种基于姿态专家的人体部件检测算法。我们在学习空间关系模型之前,首先在姿态空间对样本进行聚类,然后利用聚类得到的每个小组内的姿态相近的样本分别学习树结构姿态估计器,并将这些估计器称为姿态专家。由于训练阶段隐式地施加了特定的全局姿态偏好,每个姿态专家都能更好地处理特定的人体姿态。测试时,我们将所有姿态专家估计结果中置信度最高的结果作为输出。我们提出了两种样本聚类的方法,并且在两个公开数据库上验证了姿态专家算法的有效性。此外,我们基于所有姿态专家估计的结果,提出一种鲁棒的人体动作识别算法并取得了很好的实验效果。3)提出了一种鲁棒的判别式Hough投票的人脸部件检测算法。我们首先在受限局部模型的框架下统一了主成分分析模型和形状模板模型,然后在形状模板模型的基础上提出了我们改进的基于Hough投票的人脸对齐算法。相比原来的形状模型方法,我们的方法使用了更少的锚点(通常只用一对眼睛),并对锚点定位的误差具有较强鲁棒性。我们还提出了一种判别式的模板选择算法可以更精确的选择与当前测试人脸相匹配的模板。我们的算法在四个困难人脸数据集上取得了优异的结果。4)基于以上三个具体的部件检测任务,我们总结了空间关系强度对于部件检测建模思路的影响,并针对部件检测算法最核心的构件-形状模型展开了三组讨论,包括近年来流行的隐式形状编码方法的动机和优缺点;经典的树结构模型和主成分分析模型各自对应的数据分布假设;形状模型的灵活度的可能改造方案。这些讨论让我们能够更好地理解目前最先进的部件检测算法的合理性和局限性,并期望可以启发出更多优秀的算法。