论文部分内容阅读
基于视频的人体行为识别作为目前视频分析与理解中的热门研究方向之一,在人机交互、视频监控、虚拟现实、以及运动分析等方面具有广阔的应用前景。基于视频的人体行为识别主要包括特征表示与特征提取、特征融合以及行为识别几个方面研究内容,目的是利用现有的计算机技术使机器能够像人类一样具有识别、分析、以及理解人体行为的能力。基于视频的人体行为识别技术尽管已取得了长足的进步与发展,当前人们仍然面临如何高效、准确地获取人体行为特征,进而对维度空间进行有效降维的问题。为了解决上述问题,同时考虑到多特征方法可以有效地解决单一特征表达精度不高、鲁棒性差等问题,本文探索从视频中自动对时空域内的静动态特征进行融合的方法,研究借助相邻帧的上下文相关性特点来提高人体行为融合特征的识别性能。本文以人体行为为研究对象,通过分析视频中人体行为的特征表示、人体行为特征融合以及人体行为分类等算法,重点对基于时空域的人体行为静动态多特征融合、基于网格量化的人体行为特征提取算法、人体行为深度特征提取、以及异常人体行为识别等问题进行了探索研究。本文提出了一种基于轮廓及运动矢量提取深度特征的人体行为识别方法。该方法实现简单,无需对摄像机标定和计算内外参数,即可从单目视频中生成人体行为深度特征。由于人体运动关键特征点数量少以及噪声等原因,深度特征会存在部分缺失,为了估计出该类特征值,本文采用基于边缘均值的特征修复方法。为与人体行为实际深度特征进行比较,在DHA数据库上进行了实验,结果证明两者的识别性能相当,在没有深度采集设备的条件下,使用该方法仍然可以获得较高的识别率。本文提出了一种基于相邻帧融合静动态多特征的人体行为识别方法。首先在时空域特征提取框架中选择三类特征对人体行为进行描述,其中静态特征选取了具有尺度、平移和旋转不变性的人体轮廓不变矩描述子和可以表示人体区域整体以及局部细节的轮廓特征,动态特征则选取了能够描述人体动态信息的光流特征。其次,由于视频帧与相邻帧之间存在一定的上下文关联性,本文通过邻帧加权求均值方法对视频帧与相邻帧的人体轮廓和光流径向直方图特征进行融合,该方法可以增强时空域内人体行为特征的描述能力,有效地降低了畸变兴趣点对目标识别造成的不良影响,解决了视频中单帧缺少时空特征的问题。为融合帧内不同静动态特征以解决维度空间过高的问题,本文采用K-L变换对人体轮廓径向直方图和光流径向直方图进行融合。实验表明,引入三类特征以及相邻帧特征融合方法能有效地提高特征区分度,在同样特征数量级下提高了人体行为识别的准确度。本文提出了一种基于网格量化多特征的人体行为识别方法,该方法利用网格量化,去除了静动态特征之间的冗余信息,有效地降低了特征维度空间。该方法利用关键帧及DTW实现快速的人体行为分类。本文提出了一种改进的基于光流网格量化特征及马尔科夫随机场模型的异常人体行为识别算法,用于复杂环境下的异常人体行为分类。首先对光流方向等特征进行网格量化,获得表征人体行为运动的视觉词袋。进而将视频序列中的帧划分成若干个区块做为MRF模型的节点。为了能够求出区块的特征描述符,需要再对区块进行划分得到更小的子区域。最终结合视频的时空特性,通过求解MRF模型的能量函数,判断出是否有异常行为发生。