论文部分内容阅读
在信息时代,一图胜千言,图像在日常生活中的地位举足轻重。人们习惯于借助Internet来搜索和查询图像信息。面对浩瀚如海又纷繁复杂的网络信息,迫切需要高效精准的Web图像检索技术来满足人们日益增长的需求。目前图像检索领域主流的方法有两种:基于文本的图像检索(TBIR)、基于内容的图像检索(CBIR)。TBIR虽然简单方便,但是需要人工标注,太受限制;CBIR使用视觉特征来检索,提高了检索效率,但无法精确表达图像语义;二者各有利弊。对Web图像来说,它嵌在Web网页中,既包含图像自身信息,其所在网页也会提供大量的文本信息。如何有效地利用这两种信息,综合TBIR和CBIR的优势,实现性能较优质量较好的Web图像检索,成为研究的热点。针对上述问题,本文探索研究一种融合文本和语义的Web图像检索方法,来改善检索的性能。该方法有效利用了Web图像包含的两种信息:图像本身的语义信息和从图像所在网页中提取的反映图像内容的文本信息,并权衡考虑TBIR和CBIR的利弊,大大改善了检索效果。为了实现有效的Web图像检索,本文首先介绍自然语言处理领域中的词汇语义相似性计算技术,为文本信息的相似性度量提供基础,同时为文本特征和语义特征的融合做准备。其次利用TF/IDF技术的统计特性,分别从图像的名称、注释性标签、所在网页的主题和图像周围紧密环绕的文本,提取关键词的组合,按概率大小抽取图像的文本特征。然后重点研究一种用次梯度下降算法优化改进的基于补全标记矩阵的图像自动标注算法,用以填补语义鸿沟。该算法是以图像的SIFT视觉特征为基础,通过补全标签与图像之间的标记矩阵来建立从低层视觉到高层语义的映射模型,有效地提取图像的高层语义特征。在优化改进问题上,为标记矩阵引入一个L1范数的正则化矩阵来满足对标记矩阵的约束条件,而且同时使用L2范数和L3范数达到产生稀疏矩阵的目的,通过复合函数优化理论得到矩阵的稀疏解,使用计算速度最快的次梯度下降算法来解决最终的优化问题,大大提高了算法的收敛速度。最后把提取到的文本信息和语义信息,放入贝叶斯推理网中,使二者充分融合,最终实现有效的Web图像检索。基于上述的探索和研究,实现了融合文本和语义的Web图像检索,通过实验验证,本文的方法可靠有效。