论文部分内容阅读
近年来随着因特网及移动互联网的迅猛发展,多媒体图像视频数据爆炸性增长。基于内容的图像检索(CBIR)技术因其能够有效分析并组织和管理图像数据,一度成为多媒体领域的研究热点。CBIR技术解决了“以图找图”的问题,但人们更习惯于通过语言描述查找想要的图像内容。然而受到底层视觉特征无法完全反应并匹配用户检索意图,即“语义鸿沟”瓶颈的存在,CBIR技术近年来遇到前所未有的挑战。应运而生的计算机自动图像标注的应用前景广阔,具有较高的研究价值和巨大的挑战性,日益引起学术界的广泛关注。 本论文研究所做工作主要包括以下三点: 1.针对图像检索中低层视觉特征和高层语义之间的“语义鸿沟”问题,以联合媒体相关模型(CMRM,Cross-Media Relevance Model)图像标注方法为研究基础,结合图像的区域空间信息,实现了一种基于改进的CMRM图像标注改进算法。实验结果表明,改进方法的标注效果优于原始CMRM。 2.以CMRM图像标注模型为基础,提出了一种结合标注词之间相关性的标注改善方法。该方法通过词间相关性矩阵提取并描述Corel5K数据集中关键字之间的相关性,借助图学习的方法将该矩阵与CMRM算法得到的初始标注词矩阵相关联,实现词间相关性在不同关键字之间的传播。 3.词汇之间的互信息定量描述了标注词之间的相互依赖程度,为此提出了两种基于标注词汇互信息量的图像标注方法:基于互信息的标注方法以互信息作为相关性度量,以经过词间相关性改进算法调整后的初始标注词的条件概率值进行降序排列后,逐个计算候选词汇和已知词汇的相关性,剔除相关性小于全局阈值的干扰词,实现图像标注性能改进;基于加权互信息的标注改进将统计标注词汇的共现频率与包含关键字的图像和待测图像的相似度结合,充分利用词词关系和图图关系对标注结果加以改善。实验结果证明,此两种方法在初始标注结果基础上,剔除噪音词和候选词重新排序均可实现图像标注效果的进一步改善。 与经典的基于CMRM的图像自动标注算法相比,本论文实现的综合算法充分考虑到标注词上下文相关信息。通过在标准Corel5K数据集上的一系列实验验证了本文算法的可行性和有效性。