论文部分内容阅读
随着交通行业的不断发展,城市与城市之间的行程时间逐渐缩短,人们前往不同城市旅游成为了一种常见的现象,通常人们在出游前往往需要通过键入“地标名称”搜索兴趣点的相关信息,但是这种方式无法对“不知名”的兴趣点有效查询。地标建筑图像检索,则能通过用户所输入兴趣点的地标建筑图像,检索出与之相关联的图像并给出地理位置信息。然而城市数量骤增,城市化进程加快导致城市建设过程中出现大量相似风格的建筑,这使得不同地标建筑易出现相似外观,而同一地标建筑因视角、光照等变化则会呈现较大外观差异,对地标建筑检索技术在智慧旅游领域中的实际应用部署带来了困难。此外,从数据角度而言,真实场景下的数据能够客观反映地标建筑状况,为模型的特征学习提供有效信息,有利于相关技术的优化与落地。综合考虑,本文在总结分析地标建筑特性以及相关图像检索技术的基础上,从以下几个方面展开研究:(1)真实场景下的地标建筑图像存在视角变换、遮挡等现象,而现有公开地标建筑数据集经过人为设定常呈现理想设置,如摄像角度单一等,难以让网络学习到多样的判别特征;目前公开数据集多关注单体建筑,缺乏多体建筑相关数据,并且尚无国内典型地标建筑数据集。基于此,本文构建了第一个针对全中国范围内真实场景下的地标建筑数据集CNLd2437(China Landmark 2437),并对其特点进行了统计分析。首先,选用基于Scrapy框架的网络爬虫,根据地标名称爬取相关图像数据;其次,设计脚本筛除爬取到的损坏数据;接着,采用p Hash哈希算法,计算汉明距离度量图像之间的相似度,对重复数据进行删除;然后,设计CNN-5图像二分类模型,删除非建筑图像;最后,将干净的数据以图像形式存入按照地标名称建立的文件夹中,构建了由国内2437个地标、37930张图像组成的CNLd2437数据集。构建的数据集具有场景复杂、图像多样、有较高类间相似性和类内差异性等特点,在一定程度上弥补了其他公开数据集的局限性。(2)城市建设过程中涌现出大量风格相似的地标建筑,致使不同地标建筑易具有相似外观,而同一地标建筑则会因视角、光照等变化呈现出较大的外观差异,增大了地标建筑检索难度。针对上述问题,本文提出了一种自适应注意力地标建筑检索方法(Adaptive attentional landmark image retrieval,AALIR)。首先,选取Transformer作为骨干网络,用来获取全局特征、初始局部特征;而后,构建多局部自注意网络(Multiple Local Self-attention Network,MLSN)计算各局部特征的空间注意力权重,对图像中权重高的显著局部特征进行自适应定位,并行获取多个显著局部区域;然后,设计局部多样性正则化项(Local Feature Regularization,LFR),降低显著特征间的相似性,获取多个互不相交的显著区域;最后,设计特征融合与分类网络(Feature Fusion And Classification Network,FFAC),将全局特征、显著区域特征并行送入,获得更全面的特征描述,并实现分类。此方法有效提升了在公开数据集Oxford5k、Paris6k和University-1652上的检索性能,并在自建数据集CNLd2437上取得了良好效果。(3)基于Py Qt5设计并开发地标建筑检索系统。设计YOLOv5-Trident Net检测模型实现地标建筑检测任务,通过改变卷积膨胀率调整感受野的大小,提升模型对不同尺度目标的检测能力;选用本文提出的检索方法AALIR对特定地标建筑进行检索,实现精准匹配。该系统界面简洁、操作方便,完成了地标建筑的检测与检索任务。