论文部分内容阅读
图像自动标注是计算机视觉领域最重要的挑战任务之一,好的图像自动标注技术对于实际研究与应用大有裨益。考虑到传统方法对大规模数据处理能力弱的特点,其在多数情况下并不能满足大数据的处理现实,而深度学习模型则对大规模数据处理具有得天独厚的优势,因此国内外众多研究人员趋向于采用深度学习模型来解决大规模图像的自动标注问题,并且适应各种不同处理环境的多种深度学习模型被相继提出。但是它仍然存在一些问题,主要存在与模型的构建以及标签的确定等方面。本文针对大规模图像的自动标注问题,详细分析和深入研究多种深度学习模型,提出基于这些模型和自己设计模型的图像自动标注方法,并通过实验验证其有效性和效率。全文主要研究内容如下:1.阐述了图像自动标注技术的研究背景和现状。针对深度学习及其在图像标注领域的应用进行了深入的研究分析,包括其中的重要理论与关键技术。详细描述了图像自动标注现有若干经典算法,包括传统方法和基于深度学习的方法,并分析了这些算法的利弊。2.针对现有的图像数据尤其是网络图像,其本身含有的标签多数是错误的或者是不准确的,本文提出一种多任务投票方法(Multitask Voting,MV)。该方法可以一定程度上提高标注的准确性,从而提高网络模型的训练效果。其次,现有的绝大多数标注方法产生的标注词都是固定的,本文的MV方法亦可做到标注词汇的自适应,实现标签随机化(top-random)。再者,本文通过修改CaffeNet模型,构造了一个基于卷积神经网络的大规模图像标注模型MVAIACNN。最后,通过在MIRFlickr25K以及NUS-WIDE两个数据集上进行试验,并与其它方法进行比较,结果表明本文方法的有效性。3.针对单个模型学习能力欠缺以及无法充分考虑标签之间的关联性问题,本文提出了一种基于双深度学习模型的图像自动标注方法。首先,为了充分发挥双模型的有效性,我们选取FasterR-CNN作为其中一个模型,因为它是基于深度学习区域系列目标检测最好的方法。另外,由于本课题组在图像自动标注模型研究方面的积累,并且前期提出的AIACNN模型取得的不错的效果,故将其作为合作训练的另一模型。其次,受协同训练启发,提出合作训练算法,充分利用标签之间的关联性。最后,通过实验对比验证,本文方法取得了较好的结果。