论文部分内容阅读
基于复杂场景的人体行为语义理解是近年具有挑战性的课题。复杂活动场景中的语义细分化理解中多数是围绕人体行为活动展开的,具体包括:对人体行为语义细分化理解、人体身份特征语义细分化理解和人体活动轨迹理解与分析。本文的研究内容主要针对以上的三个方面展开:(1)复杂场景下人体行为语义细分化理解。在复杂活动场景中,要在同一个场景中对存在的多个不同人体行为动作进行分析,由于多数视频标签都是针对单个行为活动进行标注的,对于存在多个体的场景缺少必要的标注。针对上述问题,本文提出利用人体关键点对人体活动区域进行定位,再对定位区域通过卷积神经网络进行建模,最终得出区域中的人体行为活动。在实际的视频场景中验证了方法的可行性。(2)复杂场景下人体身份语义的细分化理解。在复杂活动场景中,不仅对个体活动区域中的行为动作有理解的需求,而且对行为动作的发起者有语义理解的需求(即需要理解个体活动区域中的身份信息)。本文使用的人体生物特征是人脸信息,首先通过多卷积神经网络级联的方式在个体活动区域中检测出人脸的位置,考虑到在实际场景中人脸对摄像机的角度各不相同,需要将检测出的人脸利用仿射变换进行人脸校正,再将卷积神经网络作为人脸特征的特征提取器,最后通过提取到的人脸特征进行人脸识别工作,完成人体身份语义理解的任务。在公开数据集上和实际的视频场景中验证了方法的可行性。(3)复杂场景下人体活动轨迹理解与分析。在复杂活动场景中,要对特定感兴趣的行为语义进行后续行为语义的捕获和理解,并且在该区域缺少身份信息的情况下,则需要对人体活动轨迹进行跟踪。本文采用基于核化相关滤波器的跟踪方法,并在此基础上加入了多特征融合和多跟踪尺度变换的方法,使待跟踪区域的特征描述更具有全面性。在公开数据集上和实际的视频场景中验证了改进方法的可行性。综上,本文针对实际复杂活动场景的视频进行人体语义细分化理解,使用了多种特征描述算子,结合机器学习方法,并且通过实验验证上述研究在实际应用中的可行性。