论文部分内容阅读
基于视觉的行为识别是指将包含某种行为的视频或者图像序列标注为正确的类别标号。行为识别技术可用于视频监控、无人驾驶、人机交互、体育视频分析等众多领域,具有广泛的应用价值。行为识别研究涵盖特征提取、行为描述与表示以及分类器设计等诸多问题,涉及计算机视觉、机器学习、模式识别等多学科的交叉,是近年来人工智能领域研究的热点,具有重要的研究意义。本文在综合叙述国内外相关文献基础上,对基于稀疏表示模型的行为识别方法进行了深入研究。各种行为类内差异和类间差异的表示是行为识别中的关键问题,近年来基于稀疏表示的分类模型(Sparse Representation based Classifier,SRC)在模式识别领域获得广泛应用,SRC能在一定程度上解决上述差异问题。稀疏模型中通过对每个行为类别单独学习字典,使字典中的原子尽可能包含不同的形态,从而将类内差异包含进来;对不同行为分别学习的字典则能体现类间差异。本文对稀疏表示相关理论进行了深入研究,重点研究基于稀疏表示的行为识别算法。课题的主要研究内容如下:(1)研究了一种基于视频局部时空特征在级联字典上最近邻原子表示的行为识别方法。传统的SRC分类器在识别阶段以局部时空特征重构误差最小化为目标,过度追求重构误差的最小化,从而导致选用的原子分布广泛,相对削弱了字典的判别能力,针对该问题,提出了基于最近邻原子表示的识别方法,模型基本原理与KNN(K Nearest Neighbor,KNN)分类器相似。训练阶段与传统的SRC分类器一样,利用K-SVD(K Singular Value Decomposition,K-SVD)算法对每个类别学习单独的字典;在识别阶段,通过统计测试视频局部时空特征在级联字典上最近邻原子表示的系数个数进行判决。在Facial Expressions公开数据集和Weizmann人体行为数据集上进行了实验,结果表明所提算法的识别效果优于传统的SRC分类器。(2)研究了一种编码阶段结合组稀疏先验知识的有监督字典学习方法?模型在训练阶段利用每一类别的标号信息结合级联字典的结构,对该类别局部特征的稀疏表示系数施以不同的惩罚权重。除对每个类别单独学习字典外,还学习了一个公共模式的字典用于减小重构误差,从而一定程度上增强了各类别字典的判别性?最后给出了该模型的求解方法,并在Facial Expressions、Hand Gesture、UCF Sports公开数据集上进行了验证,结果表明相比于其余SRC模型分类精度有所提升?(3)研究了一种线性化的学习组稀疏先验核字典的方法。字典学习拓展到核空间中可进一步提高SRC模型的分类效果,通过映射样本的方式线性化的学习核字典,并将核空间字典学习组合到组稀疏先验分类模型中,最终构建了结合组稀疏先验的核空间字典学习模型,并应用于行为识别。