论文部分内容阅读
随着科技的发展和人类生活水平智能化的提高,智能服务机器人逐渐进入到人类生产生活中,并且被广泛地应用到了各个行业。机器人服务人类时,首先且最重要的是需要建立对周围环境的认知与理解。而视觉是机器人获取外部信息的主要传感器,因此,基于视觉的场景理解能力直接影响着机器人智能化水平的发挥。近年来,基于视觉的机器人环境认知和理解得到了越来越多研究人员的关注,并获得大量令人瞩目的研究成果。然而,大多数的研究方法,采用人工定义的特征,不能全面表达图像隐含信息,而且特征表达缺乏人类能够理解的高层语义信息,致使机器人无法准确完成其他特定任务。随着目前深度学习的发展,尤其是卷积神经网络在图像识别领域中取得的优异性能,卷积神经网络被广泛应用到机器视觉领域中。卷积神经网络模仿人类视觉机制,能够更加全面表达图像信息,更适合于实际应用。但是针对较为复杂的场景理解任务,卷积神经网络还具有一定局限性,例如全局卷积神经网络激活值把图像信息抽象成了一维语义信息,忽视了图像中层语义信息和物体的细节信息。此外,由于卷积神经网络的池化特性,导致其降低了图像几何变换的不变性。本文围绕机器人环境理解问题,从场景识别和场景解析两个角度,探索基于卷积神经网络的场景理解方法,主要研究内容包括:(1)针对卷积神经网络特征存在的缺乏中层物体部件信息问题,提出了一种融合中层语义部件与卷积神经网络的场景识别方法。首先,学习中层局部语义部件,得到具有代表该类场景的中层图像特征表达;然后,将中层特征表达与卷积神经网络特征融合;最后,利用SVM分类器进行分类。在多个数据集上进行了对比试验,取得了相比其他方法较好的识别结果。研究过程中也发现,虽然所提出的方法在识别简单场景(例如场景中主要部分为物体)时,取得了较好的效果,但是还不能很好地处理复杂场景的图像。(2)针对全局卷积神经网络激活值缺乏对复杂场景图像几何变换的不变性,并考虑到网络结构中卷积层与全连接层特征表达的独特性,提出了一种基于卷积神经网络的多通道-多尺度无序池化的场景识别方法。首先,利用卷积神经网络提取图像的多个尺度下的卷积特征与全连接层特征;然后,将得到的特征进行池化聚合,得到最终的图像特征表达;最后,利用SVM分类器进行场景的识别。在多个数据集上的实验,结果表明,我们的方法取得了很好的识别性能。此外,为了进一步提高正确识别率,将主要基于物体特征的ImageNet CNN网络与主要基于场景特征的Places CNN网络与ImageNet CNN网络进行融合,取得了相比于其他流行方法更高的正确识别率,验证了所提出方法的有效性。(3)针对编码-解码网络中对图像解析中物体边缘分割的模糊性以及对小物体分割时存在的不确定性问题,提出了一种基于超像素分割深度编码-解码金字塔池化结构的场景解析方法。首先,利用编码-解码网络提取图像特征;然后,利用多尺度空间金字塔池化结构对特征池化,整合全局信息与局部信息,增强网络对较小物体的解析,同时也增加网络中空间上下文环境信息,并训练两层的神经网络分类器;接着,对原图像进行基于图的分割,使得物体边缘更加清晰;最后,利用分类器进行逐像素分类。在多个数据集上进行实验,结果表明,与传统的编码-解码结构相比,我们的方法能获得更好的解析效果,证明了提出方法的有效性。(4)基于卷积神经网络的场景理解软件原型系统构建。为了进一步对本文提出的方法进行研究和分析,同时为了验证提出的算法对提高机器人环境认知理解的有效性,设计并实现了基于卷积神经网络的场景理解软件原型系统,利用国际上通用数据集和机器人在环境中漫游拍摄的视频序列进行实验。该系统主要包括场景识别模块和场景解析模块,每个模块又包含了训练模块、测试模块和显示模块。该软件原型系统实现机器人在真实场景下所拍摄场景图像的理解,能够实时显示其对场景的识别和解析结果。