论文部分内容阅读
                            
                            
                                通过视觉理解环境及其中人类活动的研究目标是让视觉系统具备人类的视觉感知和推理能力,是计算机视觉研究的最高目标。但由于对动态环境中人体行为和物体的感知受到运动的非刚性和高自由度等因素的影响,使得该研究进展相对缓慢。受到神经科学、认知科学和心理学的启发,本文通过挖掘动态环境中诸多物体与人体行为的内在关系,建立物体和行为共同上下文的表征模型,进而协助机器人实现人体行为理解。本文主要工作如下:(1)为缩小语义鸿沟,利用视觉属性在图像低层特征与高层语义之间架起一座语义桥梁,实现图像视觉输入到高层语义输出的映射。研究以物体视觉属性作为中间表示层的模型,证明该类模型具有较好的学习迁移性;研究基于多种组合特征的视觉属性分类算法和基于无监督特征学习的视觉属性分类算法,设计实验表明基于无监督特征学习的视觉属性分类方法具有更好的准确率。(2)推理物体及其功能属性信息是视觉智能的一项基本问题,之前的大部分工作将推理问题简化为分类问题,本文基于马尔科夫逻辑网,构建物体网络模式表征模型,以推理的方式解决物体功能属性的推理问题;利用上述物体视觉属性作为模型的中间表示层,增强模型对稀少样本甚至零样本物体的表征能力;结合人体操作物体的动作信息和互联网丰富的信息源,在统一的框架下实现丰富的推理任务。(3)为表征人体行为丰富的上下文信息,与人体交互的物体轨迹信息不可或缺。针对在动态家庭环境下收集的人体行为视频中物体轨迹获取精度不高的问题,构造3D视频中深度图像信息的尺度特征,提出物体检测追踪融合算法,实验证明可以提高物体追踪精度,为后续工作的开展打下基础。(4)为表征人体行为及其上下文信息,基于时空马尔科夫随机场构建人体行为表征模型,构造完备的、能够描述人体行为、物体及它们之间关系的时域及空域特征,构建表征上述关系的马尔科夫随机场能量函数。联合物体网络模式表征模型和人体行为表征模型,基于时空马尔科夫随机场和马尔科夫逻辑网推理机制,构建人体行为推理框架,实现对人体行为的理解。