论文部分内容阅读
视频监控己普遍存在于社会公共场所、商业大楼以及居民家庭之中,这些广泛分布的摄像头在犯罪预防、工人操作监督和家居安全等方面发挥了极大的作用。面对如此海量的摄像头及其产生的监控视频,基于人工智能的自动视频监控已成为亟需的技术,吸引了国内外学术界和工业界的高度关注。其中人体运动分析技术希望帮助到回答“他是谁?”、“他在做什么?”,这两个智能监控的核心问题。尽管该技术已经取得了长足的进步,但是仍然存在着诸多的问题有待更深入地研究。目前,相对成熟的人体运动分析技术仅适用于可控环境下拍摄的视频,对拍摄视角和人物的行为动作都有诸多的限制。而在公共场所等监控环境下,拍摄视频具有人物视角多样、动作复杂而不可预测、背景噪杂等特点。针对复杂的监控环境,如何设计有效的方法来帮助到更清楚地分辨人物,更准确地分析人物的动作,还有待于进一步地研究。基于此,本文主要针对复杂监控环境,聚焦于监控中最受关注的人脸与人体姿态这两个方面。首先研究了正面人脸图像的合成,希望以此帮助到更好地看清人物的脸部;进而研究了静态人体姿态的估计和动态人体姿态的跟踪,希望以此帮助到更好地理解人物的动作。主要的研究内容概括如下:1.针对监控环境下拍摄到的人脸一般为侧面人脸情况,提出了一种基于三角剖分和稀疏表示的正面人脸合成方法。现有的图像分块策略一般为矩形分块,这无法保证侧面和正面人脸图像中对应的局部块间严格地对齐。给定任意一张侧面人脸图像,为了合成出在纹理上自然且在外观上逼真的对应正面人脸图像,我们提出了基于三角剖分的图像分块方法,并提出了基于稀疏表示的局部图像块合成方法。基于三角剖分的分块策略可以保证侧脸和正脸对应的局部图像块严格对齐。而基于稀疏表示的合成方法可以为每一个图像块自适应地寻找到最相似的图像来进行合成,同时排除掉不相像的图像块的干扰。另外,为了缓解由分块合成所带来的合成正脸图像中的块效应问题,我们提出了三角图像块间的联合学习策略。实验结果验证了所提正面人脸图像合成方法的有效性。2.针对监控环境下背景噪杂、人物动作复杂多变等情况,提出了一种基于层次化图结构模型的静态人体姿态估计方法。经典的人体姿态估计方法通常只使用单层结构的模型,这难以捕捉到人体多样的外观,也无法很好地对高层部件间的约束关系进行建模。在本文中,我们构建了一个三层的马尔科夫网络来描述人体结构,将整个人体分解为组合部件,再分解为关节部件,以此实现对每一个部件更准确地检测。在层次化模型中,不同层级间的部件由父子节点的关系相连接,从而可描述出部件间高阶的空间约束关系。另外,所提的层次化图结构模型还是一个树形的结构,因此模型的参数可以被联合地训练得到,并且支持精确推理。大量实验结果表明,本文方法的性能相对于当前最好的方法在同一水准或有所提升。3.针对监控视频序列中人物的外观多样,且动作快速而不可预测等特点,提出了一种基于跟踪与估计一体图模型的人体姿态跟踪方法。通常,静态的人体姿态估计技术会被应用于视频进行人体姿态的跟踪,但这忽略了时域的联系,因此不能给出平滑且可靠的跟踪结果。本文设计了一种跟踪与估计相融合的模型,将人体姿态估计融入于视觉跟踪中,以充分地挖掘和利用时域的信息。在算法层面上,我们对整个融合模型进行了十分精心地设计,从而实现了以下几点(1)使人体姿态估计与视觉跟踪相互补充来得到理想的姿态跟踪结果;(2)能够处理跟踪丢失的问题;(3)仅需要使用当前帧之前的信息来进行跟踪。在公开的数据库上的实验结果表明,本文提出的方法可以有效地进行人体姿态动态跟踪。4.针对复杂监控环境下的人体姿态跟踪这一问题,进一步提出了基于最大间隔马尔科夫模型的人体姿态跟踪方法。人体姿态跟踪问题可由离散马尔科夫随机场来进行建模,但因为跟踪人体姿态需要耦合相邻帧上的肢体,整个模型会引入环,所以模型的学习和推理将是难解的问题。之前的一些工作会使用近似推理策略来求解,但这会导致模型过拟合到某一具体的数据库的统计上。因此,这些方法的性能和泛化能力有较大的局限性。本文提出了使用两个树形结构的子模型的集合来近似完整的模型,它们分别为用于空域分解的马尔科夫网络以及时域分解的马尔科夫链。这两个子模型都可以使用最大间隔技术联合地学习模型参数,因而有很强的泛化能力。此外,本文还提出了迭代推理的策略来实现集成推理。实验结果表明,该方法相对于当前最好的方法有更优的性能。