论文部分内容阅读
视觉地点识别是移动机器人(如无人车、智能服务机器人等)实现自主视觉导航定位功能的核心基础技术。随着移动机器人长航时自治的需求牵引和高性价比视觉传感器的普及,机器人视觉导航越来越受到重视,视觉地点识别技术研究已成为机器人学和计算机视觉等相关领域中的一个前沿热点。鉴于目前的视觉地点识别方法的稳健性和实时性还远未达到实用化水平,本文主要面向移动机器人自主视觉导航定位应用背景,针对已知环境固定轨迹、已知环境自由轨迹、未知环境自由轨迹三种典型应用场景,在大量公认基准实测地点图像数据集的支持下,以深度卷积神经网络(ConvNet)方法为新技术途径,按照视觉地点识别的典型系统框架,对视觉地点描述、视觉地点记忆与匹配关键技术进行了深入研究,取得了创新性成果,并在此基础上设计并实现了面向以上三种典型应用场景的视觉地点识别原型系统。本文的主要创新性工作如下:在视觉地点描述关键技术研究方面,首先针对固定轨迹巡航的应用场景,提出了一种基于ConvNet全局特征的视觉地点描述算法。该算法将不变性更好的ConvNet特征引入了传统基于全局特征的地点描述算法框架,显著增强了环境条件稳健性,同时极大地提高了计算速率(达到19毫秒/帧)。与基于传统手工特征的先进算法的对比,验证了ConvNet特征在视觉地点描述中更具优势。其次针对自由轨迹巡航的应用场景,评估了基于ConvNet路标特征的视觉地点描述典型算法,发现了不足。为此,对路标检测和ConvNet路标特征提取这两个关键步骤进行了改进,提出了改进的ConvNet路标特征,并在此基础上提出了一种视觉地点描述算法。该算法先采用二值化赋范梯度特征快速检测初始路标,再依据场景语义信息筛选出鉴别力高的路标;同时,设计了一种多层感兴趣区域池化技术,先从多个卷积网络层中快速抽取多分辨率、多级抽象的丰富信息,再进行信息融合,增强了路标特征的独特性。与当前最先进算法的对比,验证了该算法能够更好地兼得算法稳健性和计算实时性(最高可达53毫秒/帧)。在视觉地点记忆与匹配关键技术研究方面,首先针对已知环境的应用场景,提出了一种结合ConvNet路标特征树索引和哈希码的视觉地点记忆与匹配算法。该算法引入了基于树索引的快速最近邻搜索技术,加快了匹配速率;同时,设计了由粗到精匹配策略,有效地缓解了树索引通常会出现的感知混淆问题,保证了匹配准确率。其次针对未知环境的应用场景,提出了一种结合ConvNet路标特征词袋模型(BoCNF)倒排索引和哈希码的视觉地点记忆与匹配算法。该算法借鉴了基于BoW的大规模快速检索技术,建立了BoCNF新模型并创建了BoCNF倒排索引,有效支持了视觉地点记忆中环境地图构建的在线扩展,并确保了当环境地图中所存储的地点个数增加时其计算开销的增长率极低;同时,引入了Hamming Embedding后过滤技术增强了对匹配路标的鉴别能力,采用了由粗到精匹配策略,显著地提高了匹配准确率。公认基准数据集上与当前最先进算法的对比验证了这两种算法的优异性。在视觉地点识别系统设计与实验验证方面,面向三种典型应用场景的需求,在优化组合以上关键技术创新成果的基础上,分别设计并实现了相应的基于ConvNet的视觉地点识别系统。首先,设计并实现了一种面向已知环境固定轨迹应用场景的高稳健性视觉地点识别系统。该系统采用ConvNet全局特征地点描述子,提高了地点识别准确率,而且该描述子仅为单一向量,易于以线性搜索的方式实现实时地点匹配。公认基准数据集下的性能评估验证了该系统的优异性,并在加拿大2015年度机器人野外实测实验中验证了其实用性。其次,设计并实现了一种面向已知环境自由轨迹应用场景的高实时性视觉地点识别系统。该系统采用了本文改进的ConvNet路标特征,增强了地点描述的算法稳健性和实时性;同时借助了树索引和哈希码的由粗到精匹配策略,提高了匹配速率。与当前最先进系统相比,含有20688个地点的环境地图中将地点识别的整体计算效率提高了116倍,达到88毫秒/帧,而地点识别准确度持平。最后,设计并实现了一种面向未知环境自由轨迹应用场景的地域可扩展的视觉地点识别系统。该系统改进了前一系统的视觉地点记忆与匹配步骤,即利用本文改进的ConvNet路标特征建立了词袋模型(BoMCNF),创建了具有实时可扩展性的BoMCNF倒排索引,以此替换树索引。与当前最先进系统相比,在含有4276个地点的环境地图中将地点识别的整体计算速率提高了33倍,达到84毫秒/帧,而地点识别准确度持平。而且,随着环境地图体量的增加,该系统计算开销的增长率极低(如环境地图中所存储的地点个数由853个增加到4276个,而计算开销仅增加2毫秒/帧),可满足大尺度区域实时应用需求。此外,由于BoMCNF倒排索引具有在线可扩展性,该系统具有区域可扩展的特点,能够满足未知环境中同时定位与建图的应用需求。