论文部分内容阅读
随着机器视觉技术的快速发展,各种工业应用中开始加入机器视觉技术,使得工业生成中的检测识别定位等速度得到快速提升,其中字符识别就是一个广泛使用机器视觉技术的领域。但机器视觉普遍存在一些共性的缺点,比如说对字符识别的机器视觉算法,必须要在稳定的光照环境下,单一的样本类型情况下,才能做到很好的识别效果。这种缺点源自于机器视觉算法进行工作本质上是采用人工设定特征进行相似度比较的做法,这使得它难以应对多变的情况。随着深度学习算法近几年的大热,基于深度学习技术来改进机器视觉的不足是一种切实可行的方法。拿深度学习中的卷积神经网络来说,它具有自主学习图像特征并进一步抽象的能力,这使得进行复杂环境下的图像识别变得可行。本文着力于传统机器视觉算法难以应对复杂环境下多样性字符识别的问题,基于卷积神经网络设计了三种识别字符的神经网络。具体工作是:首先介绍了卷积神经网络的基本思想,基本网络架构和训练流程,接着简要阐述了数据集的选取收集和预处理,然后开始设计神经网络。最开始设计的是浅层神经网络,是通过对LeNet5的改进而来,其中改进了诸如卷积层卷积核,卷积层个数,池化层算法等方面,将卷积核减少,稍微加深了卷积层层数,提出了一种中值最大值求平均的池化方法,并对设计的网络进行了实验,效果证实了设计浅层网络的可行性。而后设计的第二种网络是双列神经网络,基于更深的网络一般会有更好的实验结果,在借鉴了VGGNet网络的卷积块思想后,使得神经网络层数得到加深,通过实验也得到了更好的效果,之后为了进一步提升识别的准确了,本文提出了一种带权值的双列神经网络,实验证实这种网络能够进一步加深准确率。最后设计了一种深度残差网络,鉴于普通卷积神经网络准确率无法在加深网络后得到进一步提升,本文基于ResNet残差网络设计了一种适用于字符识别的深度残差网络,解决了之前网络准确率一直无法上去的难题。在文章的最后,对三种网络的实验结果进行了统一的对比分析,实现了原本的设计目标。