论文部分内容阅读
伴随着互联网和图像技术的飞速发展,越来越多的信息以图像的形式表达,比如,网络上的新闻往往都包含图像,网络购物通过图像展示商品,这也使得图像日益成为网络数据的主要组成部分。如果对这些海量的图像进行高效、可靠和智能化的分类和标注,这样有助于指导用户从这些数据中方便快捷地找到最有价值的内容。单纯利用图像视觉特征进行分类和标注是一项比较困难的任务,可以考虑从其它领域中挖掘有用的知识到图像领域中。一些与图像相关的文本信息,例如图像的属性,图像周围的标注词或者文档,以及与之相关的文本描述等,可以非常方便地自动从网络中获得,并且文本挖掘技术已经相对比较成熟,因此将文本信息应用到图像分类和标注的想法变得顺其自然。加入了一些文本的先验知识,可以提高图像分类和标注的性能;并且文本信息可以自动获得,不需要人工干预,可以节省人力,提高效率。本文主要研究如何融合文本信息进行图像分类和标注,始终以图像和文本的信息融合相关技术为主线,以提升图像分类和标注的性能为目的。主要创新点包括:(1)图像标注的性能会受到标注集大小的影响,当只有少数标注样本时,图像标注的性能通常不能令人满意。提出一种基于半监督低秩映射的图像标注方法,主要思想是学到一个从图像的视觉特征到标注词之间的直接映射关系。半监督的约束可以充分利用少量的已标注数据和大量的未标注数据,引入了一个流形正则项,表明如果两个图像在原始特征空间比较相似,希望它们通过映射之后在新空间也保持相近。这样的映射可以得到数据的本质结构。低秩的约束可以有效的挖掘图像视觉特征和文本标注词之间的关系,并且可以根据这个关系,处理标注词丢失或者错误的情形。在实际数据集上进行了测试,实验结果表明,该方法可以发现标注词之间的相关性,并且图像标注的性能高于对比的方法。(2)针对图像与文本的数据特征维度较高,并且数据中含有较多噪声的问题,提出了一个基于鲁棒异构迁移学习的图像分类方法。该方法将图像和文本数据映射到一个共享隐含空间,同时引入了两个错误矩阵,分别描述在文本和图像领域中的稀疏噪声。共享的隐含空间是沟通两个领域的桥梁,它可以将更准确的知识从文本领域迁移到图像领域中。在得到共享隐含空间之后,将每一个目标分类任务中的图像映射到这个新的特征空间中,进行数据重表示。在重新表示的图像基础之上,建立传统的分类器,进而完成图像分类任务。通过迭代交替的方法求解目标函数,同时给出了算法的收敛性分析,并且通过实验验证了该方法可以有效地解决图像和文本数据中的噪声问题。(3)将图像分类和标注任务结合起来,提出了一种基于判别稀疏主题模型的图像分类和标注方法。在视觉词和标注词的生成过程中,引入了类别信息,这样能够保证每个隐含的主题由与这个类别相关的词构成,与这个类别无关的一些视觉词或者标注词就会被忽略掉,也就是说学到的主题具有判别性。在主题的生成过程中,引入了0均值的Laplace分布,这就使得每个主题只包含少数的视觉词或者标注词,同时每个图像由少数的几个主题表示,也就是说学到的主题具有稀疏性。在识别的主题空间中,对图像进行稀疏表示,有助于训练一个更好的模型,提升图像分类和标注的性能。(4)为了计算图像领域和文本领域之间相关性,提出一种通过共现数据学习有向环网络的方法,并且把它作为图像-文本异构迁移学习算法中的迁移权重。为了利用异构的共现数据构建网络,首先用主成分分析方法对数据进行重表示,然后利用Markov Chain Monte Carlo优化方法构建一个有向环网络表示迁移权重。其中,有向环网络中的每个点表示一个领域,一条有向边表示从一个领域到另外一个领域的迁移权重。当这个权重比较大/小时,表示需要迁移较多/少的知识从源领域到目标领域迁移。实验结果表明,学到的权重可以有效地得到领域之间强或者弱相关的关系,从而提升图像领域中目标任务的性能。综上所述,本文的主要贡献是融合文本信息,提高图像分类和标注的性能。