融合图像全局匹配和文本识别的行人视觉导航方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:Linhan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景行人视觉导航是一个具有很好的实用价值又极具挑战性的课题。随着场景识别、机器学习、计算机视觉和深度学习等相关领域的发展,近年来基于图像全局匹配的行人视觉导航方法受到越来越多的关注,然而由于行人的视觉导航问题的的复杂性,特别是视频图像在光照、视角、尺度等方面的巨大差异,其准确率目前距离实用还有较大的差距,亟需探索更加鲁棒的行人视觉导航方法。  自然场景的行人视觉导航任务与人类最基础的搜索能力具有很大的相似性。受人类视觉搜索能力的启发,本文基于发育学习网络(Developmental Network,DN)的图像全局匹配方法提出了一种关注多尺度内容的学习方法,该方法能够针对输入图像内容和标注信息自动的学习图像中需要关注的内容;同时该方法在IJCNN2017-AIML行人视觉导航竞赛中取得了最高的导航精确度,并获得第一名。  基于图像全局匹配的行人视觉导航方法可以为视觉导航确定总体方向性的指引,但仍然缺乏对目标地准确位置的定位。因此,针对图像中的细节文本信息获取,本文提出了一种基于稠密特征和文本/非文本判别相结合方法,作为对图像全局匹配得到的信息的补充,能够更加精确的根据目的地文本信息精确的定位目的地位置,从而实现更加准确的视觉导航。所提出的自然场景文本检测方法在ICDAR2015数据集上取得了达到State-of-Art的86%的准确率(F-measure可以达到83%)。  通过结合图像全局匹配方法和细节文本信息,行人视觉导航总体方向预测和目的地的具体位置信息可以实现互补,从而进一步提升导航的准确性。  综上所述,本文针对行人视觉导航中全局图像匹配,注意力转换和精确定位困难等挑战性问题,分别研究了基于发育学习的图像全局匹配方法和基于文本检测与识别的图像细节信息获取方法,并融合用于视觉导航。基于图像全局匹配的方法具有训练速度快,重点关注重要内容等优势,基于文本检测与识别的方法具有场景信息定位准确,能够提取高层语义特征等优势,两种方法结合用于行人视觉导航,可以优势互补。
其他文献
面对网络视频数据的爆炸式增长,人们迫切需要研究基于内容的视频检索技术。然而,视频的内在语义即人们对视频数据的理解与其表现形式即人们提取的二进制底层特征之间存在语义鸿
无线自组织网络具有广阔的应用前景,因而受到越来越多的关注。拓扑控制是无线自组织网络研究中最基本的问题之一,它对于节省能量、增大网络容量、减小通信干扰等具有重要意义
近十几年来,演化算法已逐步发展成为解决多目标优化问题的理想方法,特别为求解大规模复杂的多目标优化问题提供了有效的研究方法,因而多目标优化问题已成为演化算法领域的研究热
信息技术的飞速发展与数字资源数量的爆炸式增长,使传统的以关键字为检索为手段的信息获取技术日益不能满足人们的需求。在这种情况下,个性化服务应运而生。推荐系统是实现个性
随着VoIP技术的不断发展,标准SIP终端的功能越来越丰富。作为一个自主研发的标准SIP终端,SIPHello的功能从简单的语音通话和即时消息等功能,发展到复杂的在线消息订阅和视频
随着数学和信息技术的发展,价格预测的手段越来越丰富,应用的领域也越来越广泛。鉴于农产品批发市场价格在农产品流通体系中处于承上启下的位置,及时了解农产品批发市场价格的变
随着互联网的快速发展,网络上的海量数据已成为问答系统研究的沃土。从1999年开始,信息检索评测组织(Text Retrieval Conference,TREC)和其他的一些著名评测组织,如NTCIR(NACSIS
在科学计算中,稀疏矩阵向量乘(SpMV,y=Ax)是一个十分重要的,且经常被大量调用的计算内核,广泛应用在科学计算、信息检索、气象、航天、油藏模拟、天体物理、数据挖掘等科学计算和
中国科学院资源规划项目(Academia Resource Planning,简称:ARP项目)从院所两级治理结构出发,以科研计划与执行管理为核心,综合运用创新的管理理念和先进的信息技术,对全院人力、
学位
随着Java技术的逐步发展和完善,B/S结构的流行,基于J2EE的管理信息系统的研究也日益成熟。本文对保险销售管理信息系统功能与业务流程进行了系统的分析,并结合J2EE框架的技术