论文部分内容阅读
近年来,随着机器人逐渐从单一任务型向通用合作型方向发展,智能机器人拥有自主学习能力一直是学术界和工业界的共同出发点。智能机器人研究的根本目标之一是让机器人在人类生产生活的实际环境中能够更好地服务于人类。因此,理解人类社交场景是机器人获得智能的基础。社交场景理解是计算机视觉领域中的热点也是难点问题。首先,除了一般的表示场景物理属性的结构上下文以外,社交场景理解还需要理解社交上下文,即场景中人群的个体运动和群体运动。运动分析的前提是能够跟踪运动目标,因此在社交场景中长时间地精确跟踪多个运动目标是首要解决的问题。其次,社交场景理解通常涉及多视角系统,来自于多个相机的视频源数据需要注册在统一的时间空间中,因此多元信息融合也是该领域的一个难点。当多个相机具有不同的分辨率、帧率及运动轨迹(宽基线)时,以及考虑到实际应用中不可预测的丢帧现象,都会使该问题变得更加复杂。本文围绕社交场景理解,对包含多个非刚性物体的复杂动态场景中的多目标跟踪和自由运动相机时域对齐方法进行研究,并在以下几个方面取得了一些创新性研究成果:(1)在数据关联方法框架下,提出了一种基于稀疏表示的多目标跟踪算法。基于检测器在各图像帧上的检测响应,该算法将基于稀疏表示的外观模型融入到最大化后验概率的全局优化中,实现了复杂场景下的多目标跟踪。在多组行人数据集上的跟踪实验结果验证了该方法的有效性和鲁棒性。(2)将多目标跟踪表示成一个在像点轨迹和检测轨迹联合空间中的分类聚类问题,提出了一种结合前景背景互斥性的多目标跟踪算法。为了提高基于光流的分割精度,该方法利用姿态检测导出的前景背景排斥项调整像点轨迹相似度,再对改进后的关联矩阵进行多模型感知分割,最终选择在归一化割准则下的最优解实现双粒度跟踪。在多组行人及社交行为数据集上的实验结果表明,该方法对目标形变、长时间的局部遮挡及复杂背景具有更佳的鲁棒性。(3)提出了一种基于轨迹形状联合空间的视频对齐方法。假设完整的图像点轨迹(无数据丢失),并且视频间的点对应关系已知。该算法将轨迹空间中的点轨迹相似度与形状空间中的点集分布相似度融合,构建代价矩阵。然后利用动态规划技术搜索该代价矩阵的最小代价路径,作为视频序列间的非线性离散时域映射。在基于第一人称视角的社交行为数据集上的实验结果表明,该方法在视频时域对齐精度及鲁棒性方面具有一定优势。(4)提出了一种基于运动目标三维轨迹重建的视频序列同步方法。该方法的优点在于对场景及相机运动不做任何约束,也不依赖完整的图像点轨迹或已知的点对应关系。假设每帧图像的相机投影矩阵已知,首先基于离散余弦变换基函数重建运动目标的三维轨迹。然后提出一种基于轨迹基系数矩阵的秩约束,用于衡量不同序列子段对的空间时间对准程度。最后构建代价矩阵,并利用基于图的搜索算法实现多个视频序列间的非线性同步。在多组仿真数据及真实数据集上的实验结果表明,该方法对相机运动、大视角差异、跟踪误差等具有更好的鲁棒性,同步精度明显优于经典视频对齐方法。最后,本文将上述多目标跟踪及运动相机时域对齐方法集成到社交场景理解实验平台中,完成了动态场景2.5D深度图估计和社交显著性结构三维重建两个典型应用示范,从而验证了相关理论与方法。