论文部分内容阅读
人体动作识别广泛应用于视频检索、视频监控和人机交互等多个方面。近年来,随着视觉认知理论的发展,基于时空数据的流形表征与建模识别人体动作受到了越来越多的研究者关注。然而人体动作时空数据的多样性、空间拓扑结构的复杂性、时间拓扑结构的动态性、不同个体执行的多变性、以及人体动作因环境因素的影响等,给人体动作识别和人体行为理解带来巨大的挑战。如何使计算机具备人类的视觉感知和理解认知,进一步识别和理解人体动作,是计算机视觉、模式识别和图像处理领域内研究的热点和难点。本文以此问题为中心展开研究工作,主要的研究成果有: (1)人体动作高维数据具有低维流形的本质特性,而在高维数据中基于欧氏距离构建的局部流形拓扑结构可能置乱本质的局部流形拓扑结构。针对此问题提出Grassmann流形的多聚类特征选择算法,算法通过局部主成分分析方法逼近数据点的切空间,获取局部数据的主要变化方向,滤除由欧氏距离度量造成拓扑结构置乱点的影响。然后由切空间构造出Grassmann流形,通过Grassmann流形测地距保留局部数据的流形拓扑结构,以L1范数优化逼近流形拓扑,最终选择出低维的原本数据特征。在多个数据库中证实了算法的有效性,为进一步获取人体动作低维本质的流形表征提供了可行的理论方法。 (2)针对视频图像中人体目标与背景相似难以分割的实际问题,提出了基于分层引导的视频人体目标轮廓提取算法。算法以贝叶斯理论为基础,描述人体轮廓相关的帧内空间信息、形状先验信息和帧间时间信息之间复杂关系和理论模型。基于马尔科夫理论建立帧内空间随机场模型,基于高斯分布理论建立帧间信息分布模型,以分层引导的思想实践理论模型,从而获得较完整的人体轮廓。在实际的监控数据中证实算法的有效性,为进一步获取人体动作表征提供了数据支持。 (3)针对数据特征结构在不同观测中描述缺失或不完整的问题,在流形学习的基础理论上,提出三种异构特征融合算法。第一种算法根据数据局部结构融合,提出了基于局部保留映射的流形结构融合算法;第二种算法根据数据局部近邻关系结构融合,提出了基于最近邻近保留嵌入的流形结构融合算法;第三种算法根据子空间局部结构融合,提出基于张量子空间的流形结构融合算法。这些算法主要包含两个方面内容,一方面描述向量特征结构的度量方法和向量空间的度量方法,另一方面揭示出不同特征流形结构融合的机理。在轮廓数据中验证了异构融合方法的有效性,为进一步人体动作异构特征融合提供了可行的理论方法。 (4)从两个方面对人体动作建模进行研究。一方面,从动态数据特性建模的角度,提出了基于随机谱回归的人体动作建模方法,首先根据人体动作数据在流形上的均匀分布和人体动作分类标签构建权值矩阵,克服流形学习算法的邻域参数选择问题;然后通过谱回归的方法,在相同和不同人体动作图像帧中逼近基于帧的空间流形,获得对未标记样本的流形映射;最后对空间特征序列提取动态特征,使用高斯过程建模对人体动作特征进行分类。另一方面,从建立动态模型的角度,提出基于异构特征空间分布特征的ARMA建模研究方法。在方法中,利用相对极坐标划分特征(轮廓和光流)的空间区域,在局部区域统计非零信息点的数目,形成空间分布特征描述表面特征。然后利用自回归滑动平均动态模型(ARMA)建模空间特征序列,形成模型参数特征描述动态时间结构特征。最后通过各参数特征的相似矩阵线性关系假设,优化求解结构融合参数,结构融合表面特征和动态运动特征,形成表面特征和动态特征的统一性描述特征。在公用的数据库中得到无监督学习情况下更好的识别率。