论文部分内容阅读
随着互联网的快速发展、各种数字化设备的普及以及大规模存储设备的不断改进,全世界以各种形式产生的数字图像的数量正在以惊人的速度增长。大量使用的数字图像构成了娱乐、商业、教育等应用的基础,出现了许多大型图像数据库。海量图像信息的管理、检索及其应用得到越来越多的关注和研究,如何快速、有效地检索迅速激增的可视信息已成为一个亟待解决的问题。基于内容的图像检索技术(CBIR)利用图像的客观视觉特征进行图像的相似匹配检索,作为一种自动的客观的反映图像内容的检索方式,在上世纪90年代被提出并逐渐蓬勃发展起来。然而,图像低层的视觉特征内容难以表达用户的高层语义理解,即存在“语义鸿沟”,这种底层内容与高层用户理解之间的差异性是目前CBIR技术难以被广泛用户所接受的根本原因。另外图像低层视觉特征的提取效率以及基于视觉高维特征的检索技术的局限性(“维度灾难”)也使得CBIR技术难以直接应用于海量图像数据的检索。基于语义的图像检索,从图像内容理解出发,着眼于提取和分析用户对图像的理解信息,研究结合高层语义理解信息进行检索,是CBIR发展的一个方向。由于图像语义信息本身的复杂性、主观性等特点,在语义提取、表达、比较上都存在技术难点,因此,图像语义检索目前仍是多媒体信息检索领域一个重要且极具挑战性的研究课题。本文着重解决海量图像数据语义检索的核心问题,研究特征关联分析、语义知识描述、语义相似度量、语义融合检索机制以及查询理解、检索结果聚类等一系列关键技术,并集成以上系统性研究成果,实现新型、完整、高效的海量图像语义检索原型系统。本文工作的主要贡献和创新总结如下:(1)深入探究“语义鸿沟”的原因、表现形式,从层次语义提取入手,以语义分析为出发点,提出一种面向海量图像数据库的语义层次模型:该模型结合词汇学知识、领域知识、以及用户反馈信息,以层次化结构反映了“语义鸿沟”在不同层次上的表现形式,其优点概括如下:a)通过层次语义关系既可以清晰表达不同的语义粒度,也可以表达不同语义之间的关联,丰富语义层次和范围;b)语义的复杂性和多样性导致直接获取语义十分困难,自顶向下层次化语义构建符合人们的认知过程,更有效的获得多方位多粒度的图像语义。(2)研究融合语义非测度(non-metric)空间索引和视觉测度(metric)空间索引的检索机制:首先提出了一种综合度量图像相似程度的“语义相似度量”准则,从不同语义层次(视觉内容、元语义、高级语义与图像语义类别)探讨了图像语义的相似性问题。基于此,设计了一种快速高效的二阶段相似查询索引机制。其优点在于:a)以文本语义为主,辅以视觉特征综合考虑的相似度量准则,更好地获得用户对图像语义相似匹配的查询理解;b)两阶段相似检索算法结合文本语义和视觉特征分阶段比较过滤,大大缩小了查询检索范围,不仅在性能上相对于传统的顺序索引算法有指数级提高,同时也大幅提高查询准确度。(3)基于以上理论研究成果,实现高效可扩展的支持多模式用户查询的海量图像语义检索原型系统-HISA:系统集成图像特征获取、图像语义层次分析、图像语义模型建立、语义相似度量、融合索引机制等研究技术成果,支持基于关键字、图像例子、以及二者结合的查询,支持动态层次分类目录维护和浏览,提供图像自动标注等功能以完善现有的检索功能。并在此原型系统平台基础上用大量真实世界的图像数据对本文提出的检索算法进行全面的评价分析,包括算法的各项参数调优测试,以及与传统检索算法的效率比较和实例分析。实验结果证明了本文提出的检索算法具有高可扩展性、在性能上和准确度上相对传统检索算法有显著改进。(4)针对目前互联网协作标签(tag)的应用背景,进一步研究海量图像共享资源基于tag关联的语义理解和分析,提出了一种结合tag语义关联信息分析的图像结果聚类技术,以及基于此的迭代聚类检索模式-Pivot Browsing:该查询模式融合查询扩展机制、tag聚类算法、视觉特征重排、以及用户反馈等关键技术,提供全新的灵活友好的图像信息导航和用户交互方式,使用户能够方便地浏览大量的纷繁复杂的查询返回结果,快速准确地找到想要的目标,以及进行信息发现。其中,对于关键技术-tag聚类,本文采用自顶向下的启发式的图划分算法实现快速、高效的结果聚类,满足在线查询的性能需求。该检索模式不仅仅适用于图像,也能应用于更一般的tag空间信息检索的模式,有很好的应用前景。(5)将基于tag的图像结果聚类迭代检索技术系列研究纳入之前海量图像语义检索的研究框架下,实现新颖的带tag图像语义检索原型系统-PivotBrowser,并对基于tag迭代聚类的图像语义检索技术应用展开全面的分析:该原型系统支持多种用户查询操作和反馈形式,利用用户的反馈信息去矫正、改进或者进一步细化查询。通过大量真实的用tag描述的图像数据集进行定性的实例分析和定量的性能和效率评价,验证了本文提出的基于tag迭代聚类的图像语义检索模式的有效性,特别是能一定程度上解决tag空间的不一致性和多义性等问题,聚类效果理想,极大的提高了查询准确率和用户满意度。