论文部分内容阅读
大规模网络数据的利用可以有效地解决深度神经网络训练过程中面临的数据匮乏问题,已受到研究者的广泛关注。但是,直接爬取的网络数据存在大量噪声,因此,现有的多数相关工作均致力于减少噪声数据影响。这些工作通常使用在标准数据集上训练的基础模型辨别噪声数据,但这样的做法存在以下两点局限:一方面,基础模型由于数据量的不足通常未经过充分训练,所以模型的预测结果并不可靠;另一方面,网络数据与标准数据的分布存在差异,而基于标准数据训练的模型仅能对同分布的数据做出有效区分,因此,现有做法会错误地删除部分有用的图像。为了解决基础模型数据量不足的问题,本文提出在迭代过滤网络噪声数据的同时微调卷积神经网络模型。在二者的迭代交互及更新过程中,本文方法既可以获得学习能力增长的模型来更正网络图像的标签,又可以获取新的有效数据来训练模型。首先,本文通过渐进式的迭代更新,提高了模型对网络图像的判别能力,使得对噪声图像的识别更加准确,进而随着模型的改进逐步选择高质量的网络图像来扩大训练集。其次,由于网络图像内容的复杂性,单个标签有时并不能准确地描述一幅图像,因此,本文提出了为每幅网络图像分配多个标签的修正策略,来减少硬标签分配对模型带来的限制。为了缓解网络数据和标准数据的分布差异,本文提出了一种无监督物体检测的方法对网络图像进行处理,同时设计了两个准则来约束处理后图像中物体的数目、位置和类别。继而,根据约束后的物体检测结果,本文进一步通过图像级别的处理拉近网络数据与标准数据的距离,从而提升了网络数据的利用效率。在实验部分,本文爬取约50万幅网络图像,覆盖了三个公共图像分类数据集的全部类别,并利用搜集的网络图像辅助三个不同的分类任务。实验结果均表明本文提出的方法可以显著地提升图像分类模型的性能,同时优于其他相关工作。