论文部分内容阅读
视频目标行为识别是计算机视觉的一个重要研究方向。视频目标最主要类型为人与车。其应用包括视频监控系统、病人看护系统、人际交互接口、交通执法智能检测、辅助与自动驾驶等领域。本文以视频中的人、车目标类型为研究对象,分别针对视频监控与车载移动执法应用场景视频目标行为关键技术进行研究。 由于深度学习在视觉领域的不断发展应用,大规模标记训练数据库的持续扩大与样本的完善,视频监控领域目标的检测、跟踪、分类等低、中层次视觉问题取得了极大进展,相比之下视频人体目标行为分析及基于人体行为分析的事件检测相关技术离实用化还有较大的距离。其主要难点在于:(1)区别于实验测试数据库中演员动作扮演,实际监控中视频背景较为复杂,某一时空范围人体行为类型都未知,人体行为在视频时间序列中的定位和分类识别是一个极大挑战;(2)人体行为同监控场景上下文紧密关联类型多样,基于监督学习模式难以收集足够发生在特定场景中的训练样本,需要无监督、弱监督学习模式对人体行为进行分析;(3)需要分析的监控视频时间序列一般较长,同一视频监控场景往往具有多个监控相机。需要在较长的时间尺度内融合多个视域内目标检测、识别与跟踪等视觉信息,对感兴趣的特定人体目标行为进行时空边界定位。为人体行为分类识别及异常行为的检测建立基础;(4)监控视频智能分析应用中,人体行为作为一种高层次语义活动,其由一个或多个参与人员的元姿势或动作组成,具有层次尺度特征。人体行为包含人体部件的姿势(Gesture)、人体的动作(Action)、人体之间和人体与物体之间的交互行为(Interaction Behavior)、群体行为(Crowd Behavior),是一个自底向上的层次化结构。需要一个良好的层次框架有效地组织多层次人体行为特征,挖掘层次特征之间的关联关系,更好地进行人体行为识别。针对智能视频监控应用中人体目标行为分析中难点问题,提炼关键技术研究内容。以机器学习与计算机视觉领域的理论、技术方法为基础,开展了如下研究工作:(1)基于背景建模方法,对目标前景进行提取,通过尺度信息判断检测人体目标,基于检测框架中多信息融合下的多目标跟踪及轨迹生成。基于跟踪生成的几何轨迹对常见人体行为进行建模,从而识别进入、徘徊、返回等常规但应用甚多的人体轨迹行为。基于目标几何跟踪轨迹,将其转化为语义轨迹,从而实现更为复杂的人体语义轨迹行为的识别,如人体在场景兴趣区域内的停留;(2)监控视频中目标行为的时空分布位置可以由目标轨迹进行刻画,目标连续轨迹的长短决定了能在一个多长时间尺度内对目标的视觉行为进行统计分析。将人体目标长时跟踪轨迹作为组织结构,将监控视频多个底层、中层检测与跟踪视觉要素信息同人体目标的层次性行为分析相结合,进行较长时间周期内视频人体行为类型的视觉统计分析。 针对视频中车辆目标的行为分析,以移动交通智能执法应用为例进行相关研究。本文提出了一个面向高速道路交通车辆违规行为的移动执法自动检测模型。车载动态视频中车辆违规行为判定需要的关键视觉信息:检测车辆当前位置及连续行驶轨迹,动态道路场景结构的实时解译。本文研究了移动车载环境下,上述视觉信息的获取。车辆目标检测采用了深度学习网络模型Yolo(You Only Look Once)。采用基于检测的多目标的跟踪框架实现灵活稳定的跟踪。系统检测模型分为视频动态道路场景结构解析、车辆目标的检测与跟踪、逆透视变换及几何量算、违规行为判定等四个子流程模块。基于视觉要素分析结果,经过以上流程子模型开展车辆目标违规行为的检测研究。