论文部分内容阅读
人体行为识别是计算机视觉领域的研究热点之一,不仅具有重要的理论研究价值,还有着广泛的应用前景。近年来,尤其在公共安全领域受到了国家的高度重视。本论文依托于973计划课题《面向公共安全的社会感知数据处理》,开展了对面向社会公共安全需求的人体行为识别问题的研究。在现实应用场景下,用于社会公共安全领域的视频类社会感知数据具有以下两方面特点:一方面,其中包含现实环境场景下的复杂人体行为。另一方面,其中涉及海量无标签视频数据与诸多突发性未知类别人体行为。针对这两方面的数据特性,本论文重点研究了“现实场景下的多样本人体行为识别”与“无标签数据中的零样本人体行为识别”。首先,对于现实场景下的多样本人体行为识别,本论文主要致力于研究利用视频原始特征挖掘出具有高鲁棒性和强判别力的视频表示。以局部时空特征与词袋模型相结合的人体行为识别方法为基础,提出了两种基于稀疏编码的多样本人体行为识别方法,大大提高了现实场景下复杂人体行为的识别正确率。主要工作和贡献如下。(1)基于局部上下文线性编码的多样本人体行为识别方法。本文提出了基于上下文与局部信息的线性编码方法(CLLC),对各视频内特征点进行编码。然后采用基于组别的稀疏表示分类方法(GSRC),利用获得的编码系数对测试视频进行分类。CLLC编码方法利用局部约束项以及上下文约束项充分获取了特征点之间的局部关联信息以及上下文信息。该编码方法克服了现有方法的两大不足:量化误差较大和损失局部特征时空上下文信息,降低了重构误差,提高了特征编码判别力,取得了更好的识别效果。(2)基于层级时空组稀疏编码的多样本人体行为识别方法。本文提出了基于层级编码的视频描述方法。在第一层中,利用局部一致性组稀疏编码方法(LCGSC)对属于同一视频的特征点进行编码。该编码方法结合组稀疏约束项与局部一致性约束项,同时获取了特征点的全局以及局部关联信息;然后,通过绝对位置估计(AL)以及相对位置估计(RL)方法对视觉单词在视频中的时空分布进行描述,充分获取了特征点的时空位置信息。在第二层中,利用LCGSC编码方法对属于同一类别行为的视频序列进行编码。该层编码将视频类别信息考虑在内,提高了视频表示的判别力。本文所提方法进一步解决了现有方法中存在的问题:独立编码致特征关联信息缺失、无序编码致时空信息缺失以及单层编码致高层信息缺失,大大提高了现实场景下复杂人体行为的识别正确率。其次,对于无标签数据中的零样本人体行为识别,本论文针对现有零样本学习方法在人体行为识别问题上存在的局限性,研究重点为挖掘有效的视觉至语义映射关系,将无标签数据映射至适当的语义空间。本文提出了两种具有时序保留特性的零样本人体行为识别方法,实现了对无标签视频数据中突发性未知人体行为的正确识别。主要工作和贡献如下。(1)基于最大间隔结构回归的零样本人体行为识别方法。本文通过构造最大间隔结构SVM模型,将学习视觉至语义映射的问题转化为最大化视频与其行为类别之间的判别函数的优化问题。该模型由全局子模型以及局部子模型构成,保证了识别方法的分类准确性以及视频序列的语义一致性,并充分获取了视频序列的时间动态信息。该方法很好地解决了现有方法中存在的时序信息缺失的问题,提高了对未知人体行为的识别效果。(2)具有样本对齐及动态保留特性的零样本人体行为识别方法。本文通过构造线性映射模型,分别为训练域与测试域学习视觉至语义映射关系矩阵。首先,在学习视觉至语义映射过程中,借助时间系数充分获取了视频序列的时间动态信息与语义一致性信息;然后,为测试域样本学习自适应映射矩阵,以同时获取训练样本以及测试样本的结构信息;最后,利用对齐正则约束项,促使各类别测试样本的语义表示与其真实标签的语义表示相对齐,从而保留复杂行为类别间的差异性信息。该方法解决了现有方法的三大局限性:时序信息缺失、域偏移现象严重以及类类间差异性信息缺失,大大缓解了域偏移现象,进一步提高了零样本人体行为识别的正确率。最后,本文整合所提出的人体行为识别方法,开发实现了智能人体行为识别系统平台。该平台包括两大功能模块:基于多样本学习的人体行为识别模块与基于零样本学习的人体行为识别模块。该平台通过可视化、人机交互等方式为用户展示了本论文的主要研究内容,让读者对本文所开展的理论研究有更为直观的理解。