论文部分内容阅读
近年来,面向图像分类的深度学习技术迅猛发展、成果显著,但是该领域的发展仍面临以下三大挑战。首先,由于深度学习的理论基础尚不坚实,人们对深度模型的容错分析困难重重。其次,当下最先进的模型复杂结构,加剧了新模型的设计和优化难度。第三,深度学习的训练严重依赖于大规模有标注数据集,而数据集中的错误标注难以避免,高质量的标注数据难以获取。面对以上三大挑战,本文提出基于无向图的“混淆图”模型,用于精确量化图像分类深度学习模型对不同图像类别的视觉混淆特性。在混淆图中利用社区发现算法提取混淆社区结构,进而辅助研究者分析模型的缺陷,理解图像分类模型的失效原因,为模型容错设计和分析做铺垫。对于ILSVRC图像分类历年竞赛杰出模型的混淆图分析证实了本文方法的有效性。不仅如此,根据混淆社区信息,本文提出“专家子网”结构,有针对性地帮助原分类模型提升图像分类精度。通过添加用于精细化分类的专家子网结构,我们将AlexNet模型的Top1平均分类错误率降低1.49%,将vgg-verydeep-16模型的Top1平均分类错误率降低3.45%。此外,我们还结合混淆社区信息和社区发现算法,提出在通用图像数据集和人脸数据集中的错误标注自动检测算法。我们清理了超大规模的MS-Celeb-1M人脸图像数据集(包含约1000万张带有错误标注的图像),并获得了一个名为C-MS-Celeb的标注基本正确的人脸数据集(包含6,464,018张94,682名明星的图像)。使用我们清洗得到的C-MS-Celeb数据集训练单网络人脸识别模型,无需微调,即可在LFW面部识别测试集上达到等错误率(Equal Error Rate)99.67%的结果,该结果与其他最先进的识别手段相当。这表明数据清理对模型训练具有显著积极影响。