论文部分内容阅读
机器人技术经过长期的发展,现已成为社会中不可缺少的组成部分。目前机器人已成为提高生产效率和降低人力成本的重要工具。随着社会老龄化问题的加重及劳动力成本的飙升,机器人越来越受到国内外学术界和产业界的重视。伴随着我国2025计划的提出和国家对于人工智能技术的关注,机器人领域开始蓬勃发展,各类机器人如雨后春笋般进入人们的生活。做为机器人领域的一项关键技术,视觉地点识别(Visual Place Recognition)也受到了越来越多的科研人员的关注。视觉地点识别主要是解决“我在哪儿?”这样一个问题。它是解决计算机视觉和机器人领域许多问题(如基于语义的图像检索、同时定位与地图构建中的回环检测模块、视觉定位以及增强现实等)的关键组件。目前视觉地点识别主要面临三大挑战:(1)算法对于条件变化的鲁棒性要求;(2)算法对于视角变化的鲁棒性要求;(3)算法运行的效率要求。其中,条件变化是指由于昼夜、天气和季节等外界条件的变化导致相机在同一地点拍摄的图像呈现出不同的外观;视角变化是指由于相机的朝向不同导致在同一地点拍摄的图像呈现不同的外观;效率要求则是指若机器人在较大场景(比如城市级别)中运行时,视觉地点识别算法应在可接受的时间范围内给出响应。本文针对视觉地点识别面临的鲁棒性问题和效率问题,深入开展了基于深度学习的视觉地点识别的算法研究,主要研究内容及创新点如下:1.面向视觉地点识别的图像表示随机误差分析及应用(第二章)视觉地点识别通常被建模为实例检索任务,即将当前观测的图像与带有地理位置标签的图像数据库中的图像进行匹配,并由此进行地点的识别和定位。因此,图像表示随机误差的大小是影响地点识别算法精度的关键因素。本文首次对图像表示的随机误差进行了分析,确定了影响随机误差的主要因素,并在此基础上提出了一种能够降低图像表示随机误差影响的视觉地点识别算法SeqCNNSLAM。实验结果显示,相比于其他的视觉地点识别算法,SeqCNNSLAM能大幅度提高地点识别算法的精度。另外,为了进一步提升图像表示向量对于环境的表示能力,特别是对于地标建筑等有价值信息的表示能力,我们基于SeqCNNSLAM提出了基于图像块的SeqCNNSLAM(简称P-SeqCNNSLAM)。实验结果表明,相比于SeqCNNSLAM,P-SeqCNNSLAM能进一步的提升视觉地点识别算法的精度。2.基于物理空间和图像表示空间拓扑关系的检索范围约束方法(第三章)随着机器人的运行,其采集的图像会越来越多。当机器人做地点识别时,如果不能恰当约束数据库中查询图像的候选匹配图像的范围,候选匹配图像的数量将会越来越大,这将导致系统识别一张图像对应的地点所需的计算量会越来越大,以至于算法的响应时间难以满足效率要求。针对以上问题,本文研究了机器人采集的图像在物理空间和图像表示空间中的拓扑关系,并以此提出了一种能约束图像检索范围的视觉地点识别算法A-SeqCNNSLAM。实验表明,在标准的数据集上,相比于SeqCNNSLAM算法,A-SeqCNNSLAM可以在取得相当的精度的同时,实现20倍左右的时间加速。3.面向视觉地点识别的端到端的图像特征提取–聚合–压缩方法(第四章)研究证明,相比于传统人工特征,视觉卷积特征具有更高的鲁棒性和泛化性能。虽然已有科研人员提出了一些面向视觉地点识别的神经网络,但是现有的方法都未能同时满足算法的精度和效率的需求,即图像表示的高区分度是以高维度为代价的,这势必大幅度增加图像匹配的计算量,给实际使用带来较大的不便。本文依照经典的实例检索流程提出了一种基于卷积神经网络端到端训练的视觉地点识别框架NetPR。该框架包含特征提取、特征聚合、表示压缩三个模块,它兼顾了算法的精度和效率要求,可以直接生成低维度高区分度的图像表示。为了验证NetPR的有效性,本文基于NetPR框架构建了两个神经网络:NetPR1.0以及NetPR2.0。实验结果表明,相比于现有的视觉地点识别算法,基于NetPR框架的算法能在大幅度降低图像表示维度的同时提升算法的精度,即是实现了高效且鲁棒的视觉地点识别算法。4.视觉地点识别系统设计实现方案(第五章)本部分以现有的研究成果和本文的创新点为基础,以视觉地点识别的几个常见应用场景为切入点,提出了一套完备的系统设计实现方案,以指导实际系统的构建和算法的产品化。