论文部分内容阅读
基于视频的人体行为分析旨在通过分析视频的内容达到对人体行为进行检测和识别的目的。研究基于视频的人体行为分析在多个领域都有重要应用,如智能视频监控,人机交互,基于内容的视频检索等。正是由于广阔的应用前景,基于视频的人体行为分析近年来引起了计算机视觉研究者的广泛关注。根据发生一个行为需要的人的数量,人体行为分析任务可以分类为单人行为分析、多人交互行为分析、群体行为分析等。根据行为分析的应用场合和目的的不同,人体行为分析又包括行为分类和行为检测两大类。在行为分类任务中,训练视频和测试视频均只包含单一行为种类,或者说,视频中每个行为的开始和结束时间是已知的。行为分类的目标是为测试视频找到最匹配的行为类别标号。在行为检测任务中,测试视频中包含的行为的种类数不受限制;而行为检测的目标是在视频中找到指定行为发生的开始和结束时间。已有文献已经对简单背景下的单人行为分类问题进行了详细探讨,但是,复杂背景下的行为分析问题、快速的行为检测算法、多人交互行为分析等问题目前还没有得到充分的研究。基于人体行为分析领域的研究热点和难点,本文的研究内容主要包括以下三个方面:1)复杂背景下的单人行为检测:针对复杂场景下行为分析易受到噪声干扰的问题,本文提出了基于遮罩的单人行为分析方法。相对于简单场景,前人对复杂场景下的行为分析的研究成果相对较少。复杂场景中存在遮挡、多个运动目标等干扰因素,因此比简单场景下的行为分析具有更大的挑战性。为了减少复杂场景中的噪声干扰,本文提出了基于遮罩的模板匹配思想。所谓遮罩,是为了去掉复杂场景下的噪声而构建的行为模板,该模板规定了图像/视频中特征的有效区域。本文利用人体的剪影图像构建形状遮罩,利用光流信息构建运动遮罩。遮罩的构建在行为训练过程完成。在行为识别过程中,我们结合基于形状遮罩和运动遮罩的模板匹配结果来实现噪声的过滤和行为的识别。2)实时的连续行为检测:为了提高行为检测的速度,我们假设视频中所有的人体行为都可以得到学习。基于这一假设,本文提出了一种实时的连续行为检测方法。该方法结合了人体检测和跟踪技术,实现了对视频中的每个人体行为的实时检测和识别。与基于滑动窗口的视频搜索方法相比,本文提出的方法可以实时运行,且不会出现重复检测问题。基于连续行为分析框架,我们提出了一种产生式的对平移和尺度具有不变性的潜在语义模型。我们在该模型中引入了类别变量,在识别过程不需要EM迭代,相比传统的模型,本文提出的模型具有实现简单,可以实时运行等优点。3)多人交互行为分类:针对人体行为分析中的多人交互行为分析问题,我们研究了多人交互行为分析的建模方法,并提出了一种新的耦合的基于观测向量分解的隐马尔科夫模型。在我们提出的模型中,多人交互行为将从两个层次进行分析:个体层和交互层。其中,个体层用于描述行为中每个个体的运动特征,而交互层用于描述行为中多个目标共同拥有的行为特征。这两个层次互相补充,共同描述多人交互行为。与传统的隐马尔科夫模型及其变种相比,本文提出的模型可以提供更加丰富的行为细节,在人数变化时行为训练方法更加简单,特征选择方式更加灵活。综上所述,本文将对复杂背景下单人行为检测、实时的连续行为检测、多人交互行为分类等问题进行研究。研究复杂背景下单人行为检测技术是为了提高在复杂环境下行为识别结果的准确率。研究实时的连续行为检测的目标是降低行为检测算法的计算复杂度,实现对人体行为的实时检测。研究多人交互行为分类旨在建立一个针对多人交互行为的有效的分类模型。