论文部分内容阅读
图像是人类感知事物的视觉基础,人们可以通过图像从外界获得重要信息,因此让机器自动完成图像识别、分类具有重要意义。图像分类最重要的部分就是特征提取,研究高效的特征提取算法在图像领域至关重要。近年来,深度学习算法在图像分类方面取得了突破性进展,它通过建立、模拟人脑的分层结构,对外部输入的声音、图像、文本等数据进行从低级到高级的特征提取,从而得到更准确且接近物体高级语义的特征,所以深度学习在图像分类领域具有广阔的应用空间,尤其是卷积神经网络(CNN),是一种识别率很高的深度学习模型,其优点是能够直接与图像像素进行卷积,从图像像素中提取图像特征,另外,卷积神经网络的权值共享属性和池化层使网络需要训练的参数大大减小,简化了网络模型,提高了训练的效率。Caffe框架作为当前主流的深度学习框架,其在工业界以及学术界得到了广泛应用。在本文中,使用了Caffe框架对自己的图像数据集进行了训练与预测,并使用Caffe的python接口对卷积层的特征以及全连接层的输出进行了可视化,并且做了分析和研究。Siamese网络是一种孪生神经网络结构,它拥有两个相同的神经网络,且它们共享着权值,所以输入必须是成对样本,要么是相同类别的正样本,要么是不同类别的负样本。它的作用是可以把图片信息映射到低维的特征空间,因此Siamese网络也可以用于降维。本文基于它的对比损失函数对其样本的输入做了两点改进,第一种是对输入样本进行了重组,重组方法是在批量随机梯度下降(SGD)的分组中,寻找特征距离最远的正样本或特征距离最远的负样本,使它们组合在一起,从而使每个样本对都发挥其最大作用;第二种是丢弃无意义的输入样本对,在训练到一段时间后,有些负样本对的特征距离已经超过阈值margin,这时可将其丢弃以避免使它无意义地送入网络计算。本文使用Caffe完成了这两个创新点内容的代码编写并进行了实验结果的分析,在实验中,使用了MNIST手写体数据集,利用Siamese网络将其特征映射到平面空间,并进行了直观性的数据分布展示。对于实验结果的评测,本文采用了Test loss曲线以及Accuracy曲线作为评测手段,对原始方法和改进方法进行了量化的评测,实验证明,通过这两点改进使得Siamese网络分别在准确率和速度上有所提升。