论文部分内容阅读
随着数码摄像设备的普及和社交网络的流行,每天有数以万计的数字图像被上传到互联网上并分享。正所谓一图胜千言,海量图像数据中蕴藏着丰富的信息资源有待我们去发掘,而对这些图像进行有效的管理和利用的前提是要对图像进行语义标注。但互联网上大部分图片本身不具有语义标签,有语义标签的图片又存在着标签错误或者标签不完整等问题,加之人工图像标注代价较高、难以大规模使用,图像语义自动标注(Automatic Image Annotation, AIA)—直是近十年来的热门研究课题,引起了学术界、工业界的广泛关注。图像标注面临的最大挑战来自于高层语义和底层图像视觉特征之间的不匹配,即所谓的“语义鸿沟”。近年来研究者们提出了很多方法尝试跨越语义鸿沟,这些方法大致可以分为两类:其中一类为视觉特征学习技术,主要关注多种图像特征如何综合使用;另一类方法是语义上下文建模技术,主要利用了高层语义概念之间的相关信息。相比之前的标注模型,这两类方法都在标注效果上取得了较显著的提高。如果能进一步将两者结合起来,图像标注准确性应该能得到进一步的提升,然而据我们所知,目前几乎没有工作尝试整合这两种方法。本文提出了一个基于条件随机场(Conditional Random Fields,CRF)的统一模型——“核条件随机场(Kernelized Conditional Random Fields, KCRF)”模型,将稀疏多距离学习和语义上下文建模融合到一个框架中,在底层图像特征学习和语义上下文建模之间建立了紧密的相互作用。具体来讲,CRF负责建模图像语义上下文关系,在CRF的大框架下我们通过引入核Logistic回归(Kernelized Logistic Regression, KLR)[17]实现了多视觉距离学习。我们分别为语义上下文参数和多距离学习参数使用L2正则化项和L1正则化项。语义上下文参数和多距离学习参数在统一的框架下同时学习得到。我们在两个公用数据集——Corel5k和TRECVID2005——上进行了系统的实验,验证KCRF模型的标注性能。从实验结果可以看出,KCRF模型比目前较先进的多特征学习、语义上下文建模等图像标注模型在标注准确度上有比较明显的提高。实验同时证明了KCRF的性能提升来自于上下文建模和多距离学习的结合,而非来自于单独一种方法。另外,当图像特征的数量较多时,KCRF模型也表现得更加稳定。本文还基于较成熟、有效的上下文建模方法实现了一个具有交互功能的图像语义自动标注系统。该系统操作简单,能够对用户上传的图像实现批量式的有效的语义标注,也允许用户使用自己的训练图像集,系统能针对用户提供的图像集进行模型参数训练。通过用户友好的系统界面,可以直观地展示图像的标注效果。该系统还通过人机交互,引导用户对标注结果进行评判,标出正确的标注结果。