论文部分内容阅读
随着人们越来越多的使用图像作为信息传播载体,如何自动地识别图像中的信息成为了一个人们十分关注的问题。作为一种图像处理技术,OCR可以从图像中识别出字符信息,但传统的OCR技术存在抗干扰能力差,识别准确率不高等问题。目前,深度学习技术因具有抗干扰能力强的优势,在很多领域得到了广泛的应用,如何将深度学习应用于字符识别领域以提高字符识别速度和准确率,得到越来越多的关注。本论文提出了一种基于改进的SSD(Single Shot MultiBox Detector)网络的字符识别方法。SSD网络是一种端到端的网络模型,结合了Faster R-CNN和YOLO两种网络的优势,计算速度快,准确率高,但是存在对小目标的检测效果不好的问题。论文对SSD网络进行了改进,设计了一种字符识别网络(DSSDNet,Dense SSD Network),能够提高字符的检测精度与检测速度,并有效地解决了小目标检测困难的问题。利用改进后的算法,设计并实现了一个OCR系统。论文的主要研究内容和所做贡献总结如下:1、对传统的OCR技术进行了总结分析,并对传统的字符识别方法普遍存在抗干扰能力差的问题进行了分析。2、对主流的深度学习网络模型进行了研究分析,总结了它们的优缺点,对网络模型的设计提供了理论依据。3、针对文本特征提取问题,分析了ResNet(残差网络)的原理,基于ResNet的“跳跃连接”思想,改进ResNet得到了DenseNet(密集卷积网络),有效提高了网络中的特征利用率。根据DenseNet算法思想,设计了DenseNet网络模型,并进行了实验对比分析,证明了无论在中文数据集和英文数据集上,在检测精度和检测速度方面,DenseNet模型都优于ResNet模型。4、引入DenseNet对SSD模型进行了改进,将SSD的主干网络VGG16替换为DenseNet模型的主干网络,提高了特征利用率,并在SSD的预测网络中加入Dense Block(密集连接模块),使得预测的准确率更高,最终得到了一种改进的模型。对DSSDNet进行了实验和分析,实验结果表明:相对于ResNet,DSSDNet的检测速度更快,检测精度更高,并且在小目标的检测上有了更好的效果。5、基于DSSDNet网络模型,根据OCR系统设计流程,设计了一个完整的OCR系统。使用测试样例对系统进行了测试实验,证明了系统具有良好的文字识别准确率。实验结果表明,本文改进的算法以及设计的系统可以快速的识别图片中的字符,并且有较高的准确率。该系统对不同的英文及中文文字图像,都有良好的识别效果,检测速度和检测精度满足实际应用的要求。