基于深度神经网络的自然场景文本识别

来源 :湖南大学 | 被引量 : 0次 | 上传用户:nyjnju
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字,作为记录思想、承载语言的工具,在人类社会的发展中发挥着举足轻重的作用。自然场景下的文本含有丰富的信息,利用现代化技术获取这些信息可以给人类的工作和生活带来极大的便利。自然场景下的文本复杂多变,与排版标准、分辨率高的印刷文本相比,具有字体多样、背景复杂、分布随意、干扰因素多的特点,用传统的光学字符识别技术(OCR技术)对其进行识别达到的识别率低,不能满足实际使用需求。本文在对国内外自然场景文本识别及深度学习领域的相关文献研究的基础上,提出了基于深度学习的自然场景文本识别方法,以实现自然场景下的文本识别,达到一定的识别准确率和识别效率。本文的主要创新点和研究成果如下:(1)提出了一个卷积神经网络(CNN)和递归神经网络(RNN)相结合的端到端深度神经网络框架。自然场景下的文本识别分为特征提取和特征识别两部分,该模型采用编码器-译码器结构,将卷积神经网络作为模型的编码器,完成特征提取部分的功能。递归神经网络作为模型的译码器,结合前后输入进行识别,完成特征识别部分的功能。将训练后得到的最终模型在4个当下流行且具有代表性的数据集IC03、IC13、IIIT5K、SVT上进行测试。结果表明,所设计的模型算法优越、识别率高,适应于自然场景的文本识别中。(2)在自然场景文本识别的深度神经网络中加入了软注意力机制,位于卷积神经网络与递归神经网络之间。实验结果表明,加入注意力机制可以进一步提取对输出结果有利的特征向量,提高输出准确率。卷积神经网络、递归神经网络和注意力机制结合的自然场景识别模型,能根据单词级别的标注进行训练,不依赖于固定词典,无需对输入图像预处理即可识别,实现了端到端的深度神经网络训练,具有良好的普适性。
其他文献
本文主要探索当植被根系由于气候或者人为因素而进入自然退化腐烂阶段后,根系腐烂退化时间的长短,对海南红粘土的强度影响,为植被护坡的治理和防护提供新思路和新参考;选取温
水凝胶是一种以水为分散介质的半固态物质,能够在水或生物液体中吸收大量液体后溶胀而不溶解,是一类具有空间三维网状结构的功能高分子材料。具有溶胀速度快、含水量高、质地
采用计算机模拟技术研究细胞膜表面发生的物理化学过程是研究生物体系复杂相行为的一个重要方面。由于水分子在这些物理化学过程中起着非常重要的作用,在计算机模拟中选取合适的水模型来准确地描述水相环境下细胞膜表面性质对研究细胞膜表面复杂相行为以及生物大分子与细胞膜表面特定的相互作用起到决定性的影响。距今为止人们开发了众多水模型来描述不同模拟尺度上水相的结构和热力学性质。BMW(Big Multipole W
近年来,中国的经济发展进入新常态,服装加工类企业的内外部环境出现了很多变化。特别是十八大以后,随着经济的发展,人民生活水平逐步提高,服装加工类企业工人工资上涨趋势明显,虽远低于发达国家,但相比于东南亚地区,中国已经弱化了廉价劳动力这一比较优势。在此背景下,D公司决定寻求新的发展空间,在柬埔寨进行直接投资建厂。企业跨国直接投资面临的环境较为复杂,且投资周期较长,在遭受外部不利因素影响时,极易降低企业
研究背景:酰胺类物质是重要的精细化工原料和医药中间体。腈水合酶是一种能够催化腈类化合物水合成酰胺类化合物的金属酶,具有很高的工业应用价值。与传统的化学合成法相比,
随着新电改的推进,我国电力系统年度计划电量逐渐被中长期交易电量所代替。无论电力市场中长期交易中交易主体不确定的市场行为、发电量的不均衡性亦或是交易结果随机性等因
服务计算、云计算、大数据等高新技术的快速发展与成熟使得人类的认知扩大、能力增强,各个领域的智能业务服务大规模出现。用户的需求也变得更加复杂,单一的服务甚至简单的服
库岸滑坡一直是滑坡研究的热点,在已有研究中,大多是以二维模型或由滑坡的某一剖面纵向拉伸形成的假三维模型为对象进行分析,对与实际地形相同的真三维模型的研究较少。而且目前对于堰塞湖库岸滑坡的研究相对较少。堰塞湖形成后其水位变化迅速,鲜有学者对堰塞湖水位变化速度与滑坡体的变形特征及稳定性之间的规律进行研究。本文选取唐家山堰塞湖某滑坡体为研究对象,首先通过收集资料的方式对该滑坡区域的工程地质条件进行了分析
受自然界超浸润现象启发,超浸润表面自被发现以来就备受人们关注,其独特的润湿性能在纺织品防水、建筑表面自清洁、管道流体减阻、油-水分离等日常生活和工业生产等领域有着
柔性力敏传感器的性能主要取决于其传感材料和器件结构设计,而传感材料的传感性能优劣是最主要的影响因素。压电式压力传感材料由起压电作用的压电层和收集、传导电压的电极