论文部分内容阅读
网络的发展为我们带来了丰富的视觉信息,利用图像搜索引擎可以搜集到成千上万的图像,这其中包含有大量的各地风景名胜图像,它们从各种视角、各种季节、各种时段展现着旅游名胜的美。如何对这些风景图像进行结构化组织是网络视觉研究的一个热点问题。本文针对地标风景图像进行了深入的研究,按视觉一致性对地标图像进行聚类,进行地标图像的摘要,并对地标进行定位。该研究对地标的三维重建、地标图像的浏览具有重要的作用。本文的研究工作和学术贡献如下:
1.提出一种按空间分布结合语义的地标图像组织和过滤方法。针对网络引擎搜集的噪声图像集,利用GIST描述子对图像进行全局特征描述,然后设计分层聚类方法对图像进行聚类。对得到的图像聚类集合,利用局部特征描述子SIFT对关键点进行描述,并结合RANSAC算法和词袋模型思想,进行图像集的几何一致性验证和共性特征提取,过滤噪声图像,同时为图像集挑选出一张地标图像(Iconic Image)作为该集合的摘要。
2.提出一种基于视觉词词频挖掘的地标定位方法。在得到的各类地标聚类集合上,利用SIFT特征计算具有视觉一致性及空间一致性的兴趣点,并且设计出一种提取含有最关键信息的兴趣点的方法,然后通过这些兴趣点的位置,结合图割技术(GrabCut),预测地标的位置。
3.在假设地标聚类集合含有地标的前提下,提出了两种基于监督的地标定位算法。第一种方法,将地标定位问题转化为弱监督目标的分类问题:首先采用基于兴趣点的双模板对图像进行GrabCut分割,接着利用多示例学习思想对分割结果进行半监督分类,最后从分割结果中筛选出对地标的最优标记。第二种方法,将地标定位问题转化为集合内部元素的近邻匹配问题:首先利用兴趣点匹配技术大致标记目标的位置,接着通过GrabCut对标记结果进行优化,最后结合地标面比特征实现对地标的最优标记。
将本文算法应用于从网络检索到的四类地标图像上。在地标图像的组织方面,本文算法取得了较好的效果,能将主观视觉上具有空间及语义一致的地标类聚合在一起;在图像过滤方面,本文算法对正确地标图像的平均查准率达到89.52%,而利用关键词从网络搜索得到的地标图像集的平均精度为27.97%:在地标定位方面,基于词频挖掘的地标定位方法最高达到95.35%的标记精度,基于弱监督学习的地标定位方法最高达到90.91%的标记精度,基于近邻匹配的地标定位方法最高达到95.74%的标记精度。实验结果证明了本文所提算法的有效性。