基于递归卷积网络的手写及场景文本识别的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:yhymoon0527
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本作为社会信息交流的基本工具,其识别任务一直以来作为学术界的研究难点和热点。本文主要对于手写文本以及自然场景文本的识别任务展开研究,二者都存在着相应的难点需要进一步研究攻克。对于手写文本而言,多变的书写风格以及文本中存在的连笔现象对手写文本识别带来相当的挑战。而自然场景文本识别的难点主要集中在其场景多样性上。自然场景文本会受到自然环境的影响,如光照和拍摄角度变化等;而文本区域背景的高复杂性也对识别任务造成相当的困难。基于手写文本、场景文本识别任务存在的困难,本文需要提出对应的解决方案以更好地进行相应文本的识别。本文的主要研究工作和贡献包括:1.对脱机手写文本以及自然场景文本识别任务目前学术界的常见方法进行介绍,分析了每一个方法的优点以及存在的不足。通过对于前人研究分析,得出了基于全图的识别网络基础框架。2.针对脱机手写文本识别问题,本文在基础网络框架上进行多种改进。针对基础框架只能学习水平方向上下文信息的短板,本文提出了多方向递归网络模块。在网络中加入多方向递归模块进行多方向的上下文信息学习,以增强网络的序列学习能力。针对深度网络存在收敛速度慢、收敛效果不佳的问题,本文在网络中加入了捷径连接机制。捷径连接可在网络中引入多层次特征的融合,同时带来了模型集成的效果,优化网络的识别性能。3.针对场景文本识别问题,本文在识别框架中加入注意力机制网络。文中通过加权坐标映射可视化,分析了基础注意力网络对于非水平文本识别能力的局限性,并随之提出了多行注意力网络模型。而针对多行注意力网络对于文本定位不准的问题,本文提出了局部区域信息的学习算法以帮助网络进一步提取细颗粒特征,从而优化网络的序列识别能力。
其他文献
根据数控机床宏程序的变量技术和编程技术特点,说明宏程序不仅是一种数控编程的手段,更重要的是使用宏程序能优化加工工艺过程。本文利用宏程序解决了外圆锥面等高加工的编程技
语境问题是一个重要课题,对语言学研究具有非同一般的方法论意义,对语言学及其分支学科的发展有重要的指导意义.20世纪以来,语言学研究对象转向自然语言,研究对象发生了分化,
知识就是力量。知识对于人类的生活至关重要,同时知识也是人工智能的基石。形成知识的过程本质就是在建立认知乃至理解世界。因为人类有获取、形成以及升华知识的能力,所以人
分析了中国煤炭运销管理存在的问题,结合煤炭运销管理的特点,对运销决策的功能需求进行了分析,并在此基础上构建了基于数据仓库的煤炭运销决策支持系统模型。