论文部分内容阅读
近年来,图像分类算法发展迅猛、成果显著,尤其是以基于深度学习的图像分类算法更是取得了比肩人类的性能。但是该领域的发展仍存在以下两大挑战。首先,虽然基于深度学习的图像分类算法性能较好,但是目前主流的这些算法并没有充分地利用视觉混淆性这样的先验信息;其次,深度学习模型的体积和计算量都非常庞大而难以满足对功耗和容量都有限制的端设备的实时应用需求。本文针对图像分类算法所面临的两个挑战,引入图像中普遍存在的视觉混淆特性开展研究。首先,为了刻画图像的视觉混淆特性,我们为图像数据集建立了“视觉混淆树”的树形结构,通过“视觉混淆树”的可以将图像数据集中每个类别按照层次结构归为不同粒度的类别集合,从而反映了不同的混淆程度。其次,在视觉混淆标签树的基础上,建立了标签树形分类器以及带回溯的标签树形分类器,将视觉混淆树与传统机器学习方法结合起来增加图像分类的精度;同时也将视觉混淆树的结构嵌入到深度模型中以增强图像分类的性能。当视觉混淆标签树建立完毕,就可以用这个树形分类器替换深度模型中计算量非常大的全连接层,这样就可以增强深度模型图像分类算法的实时性。我们在实验中首先验证了我们的标签树分类器相对于目前性能最好的标签树分类器有了显著地提升,在CIFAR-100和ILSVRC12两个数据集的Top-1精度分别提升了4.3%和2.4%。另外,在精度不受损失的情况下,我们的方法相比于带全连接层的AlexNet和VGG16模型分别有了124倍和115倍的加速比的速度提升。然后又通过实验验证了我们可回溯标签树分类器算法的有效性,在CIFAR-100数据集上进行了实验,实验结果表明,利用不同深度学习模型提取的特征,我们的可回溯标签树分类器都比不带回溯功能的标签树分类器的精度高。最后我们通过对提出的视觉树卷积神经网络和基准卷积神经网络进行对比实验,验证了我们提出的方法的优势。在实验中,我们构建了3个不同的视觉树卷积神经网络模型,我们发现与对应的基准深度卷积神经网络相比,这3个视觉树卷积神经网络模型在精度上分别有1.36%、0.89%和0.64%的提升。