论文部分内容阅读
行为识别是计算机视觉研究和应用中的一个重要方向。其目的就是设计一个能自动分析视频数据中的人体行为的智能系统。行为识别系统在视频监控、运动娱乐、人机交互等场合有大量应用。广阔的应用前景激发越来越多的学者投身于这方面的研究工作中,但是人体行为识别是一个复杂的工程,主要表现在人体动作的复杂性、处理的数据量大、视频中人体姿态的变化和摄像头视角的转换等,这些因素都给识别造成了较大困难。本文我们针对这些难点,提出了我们自己的行为识别框架,该框架基于局部方向能量的特征描述子,后续利用稀疏表达对样本进行了净化,最后用加性核支撑向量机对样本进行分类。具体来讲:(1)特征兴趣点检测阶段,由于经典的Dollar算子检测到的时空兴趣点容易受背景中噪声的干扰而发生误检。本文中我们将Dollar算子扩展成一种多尺度的时空兴趣点检测算子,即综合多个尺度上的检测结果来代替单尺度的检测。这样能够得到更加稳定和准确的兴趣点。(2)特征提取阶段,本文采用了时空方向能量进行特征提取,即在局部时空区域上沿X,Y,T三个方向上进行能量分解。后续引入一种直方图熵算法对该特征进行量化形成局部特征描述子。该描述子可以同时兼顾时空区域特征的结构信息和统计信息。(3)行为表示阶段,基于局部特征的词袋法对动作中人体姿态变化具有很好的鲁棒性。而稀疏表达能够很好的抓取样本的本质信息,能够构建低冗余的过完备字典。本文将这两种方法进行融合,将局部特征稀疏表达时学习到的过完备字典当成词袋,最后将一个视频中所有特征点的稀疏系数直方图累加来表示整个行为。该方法对人体姿态变化,相机运动有很好的抑制作用。(4)行为分类阶段采用SVM分类器。在核函数的选取上我们采用了加性核作为SVM的核函数,实验表明它比传统核函数比较有更好的识别率。(5)最后实验部分我们将各个模块进行整合,通过实验测试了兴趣点邻域不同的网格划分、不同的过完备字典基向量个数、不同的稀疏表达稀疏度对分类结果的影响。并且将X,Y,T三个方向的特征信息各自作为样本测试分类结果。最后比较了三种加性核和传统核对分类结果的影响。本文实验的软件平台为Matlab R2010a,PC的配置为:E7400处理器,2G RAM,从最后的实验数据可看出,本文系统的行为识别达到了较高水平。