论文部分内容阅读
在过去的十几年中,计算机视觉领域的研究发展十分迅速。其中,对于视觉场景的理解也吸引了该领域内越来越多的研究者的兴趣,并取得了大量的研究成果。视觉场景理解的研究内容主要可分为三个部分:物体检测,场景分类和几何空间推理,而各部分也都有了较为深入的研究。但是,尽管对于视觉场景理解的研究已经取得了长足的发展,其中依旧有很多需要进一步探讨的问题。本文的研究内容主要是针对图像和视频中存在的场景的危险性进行分析,这属于场景理解的研究范畴。就我们所知,当前还没有这方面的相关研究存在。对视觉场景中可能存在的危险性进行检测和估计有着极其重要的现实意义,特别是在一些人群密集如火车站、机场候车厅、城市广场等公共场所。如果能够发现其中存在的危险情况,并估计出它的危险性,我们就可以采取相应的措施来保护人们的生命安全,将损失降到最小。针对静态图像场景,我们提出了一种基于目标关系的危险性分析框架。通过当前十分成熟的可变形部件模型(DPM)对场景中与危险性相关的目标物体(人和枪)进行检测,取得了较好的检测结果。在得到目标的空间位置之后,根据确定的危险性相关准则,对目标间的关系进行建模。然后,以目标关系作为该场景的特征描述,利用回归分析的方法对其危险性进行估计。在视频中场景的危险性分析时,考虑到与静态图片中的不同,需要达到实时的处理性能。因而不能采用前面提到的可变形部件模型来对其进行建模,此处我们采用当前十分先进的跟踪-学习-检测(TLD)算法框架对相关目标进行实时跟踪,同时结合DPM的优良检测性能对跟踪进行辅助优化。最后,考虑到在各种以人为主导的场景中,可能出现的各种危险情况(包括持枪)都在某种程度上与人体的姿态有着一定的联系。将人体的姿态估计看作是一种建立在马尔科夫随机场(MRF)上的最大后验概率(MAP)推导问题,我们提出采用分支界限算法来对该问题进行求解。通过分支界限算法捕捉到的人体姿态信息,可以为场景中的危险性分析提供更多的有用信息。