论文部分内容阅读
手写体数字识别技术广泛应用于互联网、银行、教育等行业,其中卷积神经网络是手写体数字识别的重要方法之一。随着各类卷积神经网络的不断演进,手写体数字识别的准确率日益提高,人们对其改进的焦点逐渐由“提高准确率”变为“加快模型训练的收敛速度”。本文选取残差网络作为研究方向,从网络结构和训练技术两个层面改进残差网络,提高网络的收敛速度。本文首先对经典的卷积神经网络LeNet、具有多通道思想的GoogLeNet、残差网络ResNet、SqueezeNet、DenseNet进行介绍,包括几种网络的模型结构、优点等。其次,本文介绍了经典的多通道网络模型Inception-ResNet-v2。为了提高网络收敛速度,本文改进了多通道结构,并应用于残差网络中。与Inception-ResNet-v2网络完全使用并联方式不同,本文改进的多通道残差网络是在串行卷积神经网络基础上,为每个卷积层并联一个1×1的卷积层,组成一个多通道模块,每两个模块串联后加入残差连接。同时为了加快网络的收敛,改进的网络舍弃了卷积神经网络常用的dropout技术。并随后分析了模型改进的原因及优点。最后,本文对网络模型进行训练技术方面的优化。先将GoogLeNet中的批量归一化技术应用于本文改进的网络里,以提高网络收敛速度和泛化能力。再将Adam算法应用于本文改进的网络里,以减少网络反向传播时的计算量。为了进一步提高网络收敛速度,本文借鉴了SVM处理离群样本的策略,提出基于有监督学习的多维平面输出逼近算法,并以多维平面图解的方法分析其原理。该算法是将带有严重噪声的测试样本向理想样本逼近,其中设有三个关键的参数,一是“测试准确率阈值”,当测试准确率大于该阈值时,就认为网络已经具有良好的泛化能力了,开始使用输出逼近法;二是“欧氏距离阈值”,当某个测试样本与理想样本的距离大于该阈值时,就认为该样本由于噪声过大,不具有代表性,使用输出逼近法将其推向理想样本;三是“逼近距离”,代表离群样本的移动距离。本文以MNIST和高噪声手写体数字作为数据集,进行多次实验并得出结论:与传统残差网络相比,本文改进的多通道残差网络在具有相同网络复杂度的情况下,可以使网络训练次数由1000次变为800次;本文提出的输出逼近法在不降低识别准确率的情况下,可以使网络收敛速度加快,当训练手写体数字数据集时,欧氏距离阈值设置为0.3、逼近距离设置为0.01,可以使网络收敛速度达到最快,训练70次后,准确率就可以收敛到97%以上。