论文部分内容阅读
不同于传统的分类问题,多标签分类是一类更复杂的分类任务。在传统的分类问题中,每个样本只有一个类别标签。在多标签分类中,每个样本可以同时属于多个类别。这类问题在文本分类,图像识别,医学诊断等领域应用广泛。多标签场景分类是多标签分类在图像识别中的一种应用。卷积神经网络(Convolutional Neural Networks, CNN)常常被用于图像识别中,也是几年来基于深度模型的图像处理中最常用的模型。目前对CNN的研究主要集中在深度模型领域,更多的层数,更复杂的网络是目前的研究趋势。然而并不是所有问题都需要一个复杂的深度网络,在一些相对受限的领域,如场景分类,使用相对简单的网络就够了。尤其是一些训练数据集比较小的问题,浅层网络几乎是必然的选择。另外,在深度模型的研究中,出现了一些在深度模型上表现很好的技巧,如Relu激活函数,dropout等,这些技巧对浅层网络的适用性也没有人研究。本文将CNN用于多标签场景分类。不同于传统CNN的训练,本文首先介绍使用非监督的方法训练CNN的卷积核,包括针对低分辨率小图像数据集所使用的一些正则化技巧。然后使用CNN提取图像的特征,使用逻辑回归来分类,并使用多种评价标准来评价分类结果。本文使用非监督自动编码器来训练CNN的卷积核。自动编码器是一个三层全连接的神经网络,由于在训练的时候不需要标签,所以编码器的训练方法是非监督的。编码器训练的目的是学习到输入数据的更好的特征表示,以便用来训练更好的分类器。为了学到更好的特征表示,本文对输入样本做了ZCA白化,以消除相邻像素点之间的相关性,使网络隐含层节点数远多于输入层,并在训练过程中对隐含层节点的激活数量加以限制,以学到稀疏的特征。训练完卷积核后,本文使用逻辑回归做图像分类。在卷积层上加一个子采样层和一个逻辑回归层,就组成了本文使用的网络结构。子采样层用于降低特征维度,降低网络结构的复杂性,并能使得输入特征有一些转换,缩放等的不变性。在这个网络结构中,本文实验了Relu, dropout等技巧,并在理论上分析了这些技巧的适用性。由于每个样本可能有多个标签,本文对每个标签单独训练了一个分类器,对每个标签,使用相应的分类器分类,然后将所有的分类结果合并,作为最终的分类结果。对于分类结果,本文首先使用准确率作为衡量标准,然后使用了汉明损失,差一错误,覆盖率,排序损失和平均精确度等适用于多标签分类的评价标准。实验结果表明,本文的网络结构可以得到很好的分类结果。