基于深度学习的自然场景文字识别

来源 :安徽大学 | 被引量 : 0次 | 上传用户:a568420740
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然场景图像中的文字往往富含精确的高层语义信息,这些信息随着移动互联网和计算机视觉的迅猛发展现已被广泛应用于地理定位、车牌识别、无人驾驶等领域。相比于传统的文案文字的检测和识别,自然场景下的文字在字体、大小、排版、背景、颜色、亮度等方面变化更加强烈,而深度学习恰恰因为其优越的性能成为这一领域的主要方法。自然场景图像的文字识别的过程通常可以被分为两个部分:检测部分和识别部分。文字检测部分主要是找到图像中有文字的部分然后将其框出来,而文字识别部分则主要是将定位好的长条状文本行给识别出来。本文主要基于深度学习的文本检测和识别方法来设计一套端到端的文字识别系统。本文主要工作如下:1)运用了人工合成汉字的方法生成数据集,然后用Faster R-CNN模型进行文字的定位。通过使人工合成的样本更加贴近真实的自然场景下的样本和采用更低的学习率以及更多的迭代次数来微调从原始数据训练得到的模型,从而提高文本检测的召回率和检测精度。2)运用East的方法进行自然场景下的文字检测。数据集则全部来源于淘宝。East模型主要是一种基于全卷积思想是逐像素的检测分类,并且该方法考虑到文字的角度信息,可以检测到倾斜弯曲的文字。并且对East模型进行改进使其拥有更高的召回率和精度。3)运用基于注意力机制的模型对中文数据集和英文数据集进行识别,本模型主要加入注意力机制从而专注于重要的部分,提高识别精度。4)利用CNN+ LSTM +CTC的方法对文字进行识别,通过用更大的训练样本(360多万张)和LSTM的长短记忆特性以及联合CTCLOSS的优良特性,从而取得更高的识别率。5)设计了基于卷积神经网络的端到端的中文识别框架,这个框架主要包括两个部分:(1)文字的定位过程,该过程主要是用改进后的East网络框架来进行定位的,East是一种专门针对文字的检测网络,和其它的文字检测的算法相比East不仅有足够高的定位准确率而且可以检测到弯曲的文本行,其网络结构又比其它检测文字的方法简单,训练好的模型占用的内存也比较小。(2)基于卷积神经网络的识别过程,其基础网络就是传统的卷积层和池化层和relu层,然后再加上双向LSTM和CTCLOSS,使得这个端到端的框架性能十分优良。
其他文献
由于商务英语的用词特点和语言风格与日常用语大相径庭,不少初学者在写作学习过程中会碰到不少困难。本文根据教学经验,列举了其中几点常见问题,以供借鉴。
于非闇是近现代中国画史上致力于工笔花鸟画研究与创作,并取得重要成就的画家。他的花鸟作品用笔刚柔相济,着色艳而不俗,形象刻画细致精微又极富生气。日前,“妙造自然——于非闇
报纸
从中医脉象长度信息的检测仪器研究、量化方法研究和临床研究三方面探讨中医长短类脉的量化研究进展,并提出脉象长度量化研究中存在的问题及解决的方法。
影视文化既是技术文化又是声像文化,影视文化不像文学或者其他过于抽象的文化一样难懂,影视文化是一种通俗的文化,是容易被大众所接受的文化,它普及了社会群众的文化知识,使
审美教育是一门综合教育,特别是可以弥补现行教育结构中人文素质培养的缺失,提升学生在实践中的创造力,维护教育的完整性。美育教育亦称"审美教育或美感教育",它以具体活动实施
为了研究生长激素基因(GH)对清远麻鸡部分生长及繁殖性状的遗传效应,基于聚合酶链反应-连接酶检测反应(PCR-LDR)基因多态性并行检测系统,对清远麻鸡(Gallus gallus)生长激素(GH)基因
近年来我国城市道路建设的发展将会进入新阶段,越来越多的桥梁项目准备开工建设。但也正是因为如此,它的工程质量同时受到人们的极大关注,对工程的工期、质量和技术要求也越
文中对某大型互通立交已施工桩柱利用方案进行了介绍,并对各方案采用有限元软件进行动力分析,并验证了各方案的受力合理性。同时,对各方案从施工难度、耐久性、经济性等多方
目的对北京市、上海市、青岛市、成都市的社区老年人跌倒流行情况进行调查,并探讨影响社区老年人跌倒的危险因素,为开展预防老年人跌倒的相关工作提供理论依据。方法采取多阶
介绍一种高粘度淤浆性物料缩合反应的新型搅拌器组合结构,对搅拌器的选型进行了分析,给出了搅拌器的放大基准。