论文部分内容阅读
人体动作识别是计算机视觉中一个重要研究内容,其涉及模式识别、概率论、统计学习、认知心理学等多个学科,应用领域包括智能监控、自动驾驶、人机交互和协作、智能家居等。从KTH动作数据库的公开到现在,动作识别的研究获得较大的发展。从识别固定视角的动作,到现在复杂场景中的动作识别。但人体动作具有多样性,同类动作的动作速度、持续时间等均存在较大差异。另外动作受环境和拍摄条件的影响,人体遮挡、视角变换等为动作识别带来较大的挑战性。现有动作识别算法的主要流程是从数据中学习动作特征,然后基于该特征设计分类器对动作视频进行区分。多数现有方法未对动作的结构信息进行显式建模,没有充分利用各动作要素的关联性。动作是时间和空间维度相互关联的整体,涉及人体运动、交互物体、动作发生的场景等情境因素,各因素之间的关联和时间维度的动态变化是判别动作类别的核心信息。本文提出对动作的结构和动作要素的关联进行建模,动作的要素主要包括人体位置、物体位置和人体姿态。在视频中利用人体检测器进行人体定位。视频的前景分割信息有利于人体检测,但前景分割常包含较多的噪声干扰,提出利用像素邻域内的统计信息评估该位置的前景概率。基于前景概率模型构建无阈值的人体检测器,该检测器直接决策人体检测结果,无需设置检测阈值,在模型训练中从数据中学习最优参数。检测算法经典的搜索机制是滑窗法,该机制穷尽式检测全部窗口,计算量较大。基于前景概率模型可有效生成待检测的窗口,在保证召回率的同时减少检测的候选窗。人体动作识别所涉及的物体可能有多种,无法确保全部物体均有足够的样本训练检测器,因此使用目标跟踪算法定位物体。文中提出利用目标局部关键点轨迹预测位置,在预测位置邻域内基于全局表观特征匹配进行目标的精确定位。针对较密集的人群,利用激光扫描测距仪辅助跟踪遮挡状态的多人体目标,跟踪框架是基于检测的多目标匹配。构建目标之间的匹配方程,通过方程求解实现多目标的跟踪,并使用卡尔曼滤波算法改进跟踪结果。人体姿态是动作识别的一个重要线索。多数图像人体姿态估计方法利用人体部件检测响应和人体骨架所确定的空间约束信息。但人体的部件变形导致检测器的泛化性较弱。视频中可额外使用各部件的跟踪信息改进姿态估计,提出一种时空关联模型,对空间的人体骨架约束和时间维度的表观一致性进行建模。提出的人体模型为时间和空间连接的树形结构,节点为人体部件,节点之间的连接边表示人体部件之间的骨架约束或者表观一致性约束。为求解模型的全局最优解,使用动态规划算法,在优化过程获取人体的各部件位置。人体动作可表示为时间连贯的子动作序列,每个子动作是持续时间较短的片段,其涉及的要素包括人体运动、物体位置、人与物体的交互等。提出层级结构对动作各要素进行组织和关联,形成结构化的动作信息,并定义结构化信息以及各结构元素之间的相似性度量函数。在模型学习中,结构化的动作信息和对应的动作类别标签被存储到记忆单元。在识别过程中,计算待识别的动作信息与记忆单元中存储信息的相似度,利用最近邻或者k近邻算法获取动作类别。为处理存储信息量过大的问题,利用记忆的动态退化和增强机制对数据进行更新。