论文部分内容阅读
计算机视觉是人工智能领域一个重要的研究方向,通过各种传感器设备来记录真实世界并通过图像、视频等原始形式进行信息表达,利用计算机从原始的视频数据中提取出符合人类认知的语义理解,即让计算机能和人一样自动分析和理解视频数据。比如,判断场景中有哪些感兴趣目标,通过物体历史运动轨迹预测未来行走方向,识别危险目标和动作,以及分析目标之间的关系等。智能视频监控技术是利用计算机视觉和数字图像处理相关的方法对各种设备拍摄的图像或者视频序列进行处理、分析和理解。智能视频监控技术在民用和军事领域都有极大的应用背景,如智慧城市建设、公共安全管理以及军事建设等。单目标视频跟踪是智能视频监控中的关键环节,在一些安全系数高的场合,能够对进入场景中的人员进行实时跟踪,并在跟踪过程中识别目标的行为,这就引出了多场景下的行为识别这一技术。多场景下的行为识别技术能够对捕捉到的人物的行为进行类别判定,提示系统在必要情况下进行警报处理。对于不同摄像机记录的行人,多摄像头下的行人再识别技术能够准确定位到每一个待查询目标行人,在一定程度上避免了误判和漏判。为了进一步提高智能视频监控的可靠性和实时性,本文对智能视频监控中的单目标视频跟踪、多场景下的行为识别和多摄像头下的行人再识别三个关键技术进行了深入的研究。本文的主要工作及创新点如下:1.现有的单目标视频跟踪算法大多数是采用传统方法进行特征表达,但是人工设计的特征往往基于目标的浅在特点,易受背景、光照、视角等变化的影响。而如果利用深度学习方法进行特征表达,需要大量监督样本进行模型训练,与一般的用于图像分类的数据集不同的是,用于单目标视频跟踪的视频序列包含不同的目标和背景,即使是同一物体,在A视频中可以作为目标,而在B视频中可以作为背景。在单目标视频跟踪领域中通过一个卷积神经网络模型去学习目标的统一表征形式是不适用的,这使得训练数据集在单目标视频跟踪领域极其匮乏。本文设计了一种新的基于卷积神经网络的多领域分支激活模型,该模型能够从多个视频序列中学习目标的共性表示,并且加入了视频的类别特性,在一定程度上解决了训练集过少的问题。模型分为主干层和分支层,主干层学习各个视频序列的共性特征。分支层由多个分支构成,每个分支对应一类视频序列,其中包含一个二分类器,用于区分该类别的目标和背景。在训练时,采用本文提出的一种基于相似度的视频分组算法对训练视频序列进行分组处理,每组对应模型的一个分支。在测试时,引入分支激活算法,分支激活算法首先计算测试视频序列的初始帧与各个视频组的相似距离,然后选定距离最近的分组,最后激活该组对应分支。实验结果表明本文提出的基于分支激活的多领域卷积神经网络模型的视频跟踪算法取得了优异的跟踪结果。2.基于姿态的卷积神经网络行为识别算法(P-CNN)具有计算速度快,分类准确性高的特点。然而该算法将身体各个部件割裂开来,缺乏对身体部件之间联动性的考虑,导致在对微小动作进行分类时准确率低下。本文对P-CNN算法进行了改进,提出了基于双流卷积神经网络的行为识别算法。为了充分利用视频信息,采用双流卷积神经网络模型,该模型结合了外观和运动信息,基于视频帧进行整体高级特征表达,避免了对身体部件的割裂表达。模型由空间流卷积神经网络和时间流卷积神经网络组成,分别接收基于人体姿态估计的模型输入模式以及基于光流场的模型输入模式。模型先从整个视频中稀疏采样K节进行操作,再从每节中随机选择一个短片段,分别输入到具有两种不同输入模式的卷积神经网络中,模型分别对每个短片段中动作的类别进行初步预测。此时获得的是片段级的类别预测结果,然后将不同片段的类别预测结果输入到分段共识函数中,进行类别融合,融合的最终结果作为视频级动作分类的预测结果。实验证明,本文提出的基于双流卷积神经网络的行为识别算法在不同场景下都能达到预期的效果。3.在行人再识别领域,现有的工作大多都是按照特征表达、特征转换和度量学习的流程设计算法,如果在前几步中丢失了有用信息,在后续步骤中很难恢复。为了解决这一问题,本文提出了一种基于图像对关系认知的行人再识别算法,算法将行人再识别看作一个二分类问题,并建立了模块之间的自动交互。算法分为两个模块:原始特征表达模块和图像对关系认知模块。原始特征表达模块对各个视频帧进行初步处理,首先检测出每帧中的行人,并将行人从图像中分割出来以匹配模型的输入,然后将待查询行人和视频帧中的行人图像成对输入到模型中,模型中的前两个卷积层将进行初步的高级特征表达。模型后面的卷积层和全连接层组成了图像对关系认知模块,该模块通过对初始高级特征表达进行邻域差异值计算,并获取邻域差值整体表达和跨区域特征空间关系表达,最后确定这一对图像中的行人属于同一个人的概率值。实验结果表明,本文提出的方法具有准确性高,鲁棒性强的优点。本文研究了智能视频监控中的单目标视频跟踪、多场景下的行为识别和多摄像头下的行人再识别三个关键技术,实验结果表明,本文提出的算法具有创新性和有效性,在智能视频监控的实际应用中具有一定的现实意义。