论文部分内容阅读
随着人工智能的发展,图像分类技术在日常生活中逐渐扮演着重要的角色,是人脸识别、目标定位、医疗诊断等领域的核心技术。然而之前进行图像分类研究时所依赖的数据全部是经过人工手动标记,这种方式不仅成本昂贵,而且耗时耗力,因而大大限制了图像分类能够发挥的潜力,因此如何在低成本的数据上训练出高精度、高鲁棒性的模型十分重要。互联网上每天都会产生海量图像数据,这些数据的获取方式简单、多样性强,往往还包含额外的语义元数据,但由于用户等因素不可避免的会包括含噪声标签的图像,因而本论文旨在研究对含噪声标签图像的分类,主要研究工作分为如下三个部分。(一)对原始数据集进行“数据提纯”,过滤出“简单”、“干净”的代表性小样本。首先设计出“正负”词-级类别特征,将原始文本进行分词并表示为词向量,然后使用我们设计的混合距离相似度算法计算词向量之间的相似度,进而匹配过滤出“干净”的baseline数据集,并训练出baseline模型。(二)针对数据集设计出由简单到复杂的“课程学习”策略。使用baseline模型抽取特征,进行概率预测、PCA降维、t-SNE可视化、层级聚类分析后重新划分数据集,形成各种原始数据的子集,使用Inception-v3、Resnet-50架构迭代的进行训练,并得出最终的模型。(三)在wv-40数据集上进行实验并进行对比分析,结果显示在经过“去噪”后的最终数据集上训练的Q10denos模型在测试集的准确率比原始含噪声标签的数据集上训练的Target模型高5.9%,从而证明了本论文算法能够学习到更好的表示且鲁棒性更好;比没有经过聚类重划分的Q10模型高2.35%,从而验证了聚类划分能够提升模型的准确率;比先在原始Target数据集上训练,然后使用baseline数据集进行微调得到的TFBL模型高5%,说明了本论文的算法优于前人的方法;同时为了直观的分析Q10denos模型的特征表达能力,本论文使用引导性后向传播对tench、bulbul、terrapin等图片进行可视化,结果表明模型很好的学习出物体的轮廓,综上都说明本论文所提出的算法对于含噪声标签图像的分类十分有效,尤其对于噪声数据比例较大时效果更为明显。