基于深度学习的文本图像文种识别研究

来源 :南昌大学 | 被引量 : 0次 | 上传用户：xiaowangdoc

【摘要】

：

【作者】

：

丁兆强

【机构】

：

南昌大学

【出处】

：

南昌大学

【发表日期】

：

2021年01期

【关键词】

：

文本图像文种识别 CRNN 卷积神经网络特征融合

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

互联互通的全球化步伐逐渐加快,通过手机拍摄的文件、图书等文本图像成为便捷高效的信息交流形式。在文本图像分析流程中确定文本图像的语言种类,即文种识别,是多文种OCR技术的重要一步,对于索引和搜索等后续处理步骤至关重要。然而,文本图像在手机拍摄下容易发生仿射变化以及模糊失真等情况,增加了文种识别的难度。本文以提高文本图像文种识别准确率为目的,利用深度神经网络模型的优势进行文种识别的研究。主要研究工作如下:1.本文提出一种改进的卷积神经网络模型用于文种识别。根据VGG网络的一些缺点,将网络的最后一层池化层改为空间金字塔池化（SPP）层,减少图像输入时因改变图像大小而丢失的一部分语义信息;将每层卷积层之后的图像特征转变为一维向量输入到最后的SPP层,将浅层图像特征与深层图像特征融合;在卷积层之后添加批归一化操作,降低部分参数对训练结果的影响,减少过拟合,加速网络训练。改进的网络模型与目前主流的深度神经网络模型进行实验结果对比,其文种识别准确率最高,网络效果出色。同时,与传统的文本图像特征提取技术SIFT+SVM和LBP+SVM两种方法进行结果比较,表现依旧出色,达到了理想效果,验证了改进的网络模型算法的有效性。2.本文提出一种基于CRNN的文本图像文种识别方法。将卷积神经网络中轻量级网络模型Mobile Net与递归神经网络中双向LSTM结合。该方法可以直接从图像数据中学习信息表示的特性,不受序列对象长度的限制,同时,它包含的参数比标准深度卷积神经网络模型少得多,占用的存储空间也更少。经过在文本图像数据集下的训练测试,文种识别准确率达到97.83%,相比于已经提出的网络结构,本网络模型的识别准确率提高了1.91个百分点,同时训练参数量只有0.46倍。与传统的文本图像特征提取技术SIFT+SVM和LBP+SVM两种方法进行结果比较,实验结果理想。在SIW-13公共数据集下,与已经提出的网络结构相比,本网络模型的识别准确率最高。从而可以得出,本章所提出的文种识别方法达到了理想效果。

其他文献

基于时间序列成像的集成深度神经网络的短期负荷预测研究

随着用电量的快速增长,电力装机量迅速扩张,对电网的规划调度提出了更加精细化的要求,发电企业和电力部门需要更加精准的掌握负荷的变化规律以及发展趋势。精确的电网负荷预测可以保障电网的安全运行,实现科学发电、调度以及配电,并且电力公司进行总体规划、发电计划制定、电力市场、具体设计等都需要负荷预测,因此增强短期电力负荷预测精度成为电力计划的重要工作之一。近年来,电力负荷预测也是许多专业人员的重点研究方向,

学位

卷积神经网络时间序列成像注意力机制残差网络集成模型

平面上多核心Voronoi图的算法研究及应用

随着科技水平的不断提高,计算几何扮演着越来越重要的角色,并在计算机图形学、机器视觉、地理信息系统、车辆导航、工业设计和集成电路设计等领域具有广阔的应用前景。Voronoi图作为计算几何中一个十分重要的分支,也颇受广大学者的青睐。本文旨在针对传统的Voronoi图存在的一些局限性进行分析和拓展。一方面,传统点集Voronoi图是围绕平面每一个点进行最近领域的划分,Voronoi单元格的数量等同于点集

学位

Voronoi图DBSCAN聚类多边形集合目标检测

基于端到端深度网络的OFDM波形外辐射源雷达参考信号获取方法研究

随着正交频分复用（OFDM）波形信号在全球范围内的广泛部署,近年来基于OFDM波形的外辐射源雷达逐渐成为了研究热点。然而,与有源雷达探测信号先前已知不同,OFDM波形外辐射源雷达需要在接收端提取参考通道中被多径和噪声污染的直达波作为参考信号。结合OFDM信号的波形特征,基于“解调-再调制”重构的参考信号提取方法是解决这一问题的常用途径。传统的重构方法主要采用依赖导频处信道信息的最小二乘（LS）和最

学位

外辐射源雷达正交频分复用（OFDM）波形参考信号重构深度神经网络Wasserstein生成对抗网络

基于卷积神经网络的智能语音问答算法及应用

2020年是不同寻常的一年,全球经历了史无前例的新型冠状病毒COVID19,在疫情期间,我国推出了很多防疫措施,抑制了疫情的侵袭蔓延。于是,提出了“无接触”概念,智能语音问答交互技术等无接触式人机交互技术突显出了优势。因此,本文以智能语音问答为研究方向实现无接触人机交互。语音问答技术实现需要解决三个问题,语音识别、知识库的建立、答案匹配。语音识别作为前端数据入口,其识别正确率直接关系到后端问答系统

学位

卷积神经网络语音识别问答匹配知识图谱

基于负载均衡和服务流控的高并发访问机制的研究

随着互联网的普及与高速发展,软件应用对并发量和服务质量的要求越来越高,推动着互联网的架构不断演变。迅速增长的用户规模,日益复杂的业务系统,导致网络的并发访问流量爆发式增长。单一的服务器架构受限于硬件和网络带宽等,难以应对海量的用户访问,集群和负载均衡技术应运而生,它们能够提供更强大的任务处理性能和容错能力。其中,微服务架构以其优秀的组织结构和开发性能得到了广泛关注,可以通过将复杂系统拆分成多个独立

学位

高并发访问负载均衡流量控制蚁群算法trTCM算法

范宽山水画艺术源流初探：以《溪山行旅图》为例

范宽,北宋山水画三大名家之一,他发展了荆浩的北方山水画派,主张"外师造化,中得心源",对后世影响深远。本文从"师法自然"的艺术理念出发,结合其家乡照金的山水景观,重新感受《溪山行旅图》中所描绘的景象,在作者的带领下,更进一步地理解范宽山水绘画的艺术源流。

期刊

基于MEMS传感器的可穿戴式空气质量监测系统设计与实现

近年来,由于化石燃料的燃烧和烟花爆竹的燃放等行为,造成了严重的空气污染问题,使得空气质量不断下降。不论是国家、政府还是人民都想对空气质量进行评估,以便于采取相应措施将空气质量控制在一个合理的范围之内。而现有市场上的空气质量检测仪存在着体积较大且不利于随身携带等缺点,如果能够结合可穿戴设备体积小巧且方便穿戴的优点,便能随时随地对周围环境的空气质量进行实时监测,使得人们能够及时地了解到此时此刻的空气质

学位

可穿戴空气质量MEMS传感器TVOC甲醛

IoU-Net模型的改进及其在甲状腺良恶性结节检测与识别中的研究

将深度学习技术应用于甲状腺超声图像中结节的检测与识别并辅助医师进行性状识别具有重要意义和应用价值。课题主要研究内容和取得的阶段性成果如下。首先,针对现有的甲状腺结节自动检测与识别方法在较高IoU阈值（IoU>=0.75）情况下,可能存在检测精度不高的问题。本文以当前目标检测领域先进的IoU-Net模型为基础,提出并构造了一个针对高质量的甲状腺结节自动检测与良恶性识别模型---Trident R-C

学位

IoU-Net甲状腺超声图甲状腺结节检测与识别Trident R-CNNBalanced L1 loss

基于轻量化卷积神经网络的体育图像分类研究与应用

随着体育产业的蓬勃发展,体育图像数据量呈指数增长,对体育图像进行有效的分类就非常重要,这既可以方便用户快速检索和访问,也便于工作人员对体育图像资料进行存储和管理,同时还有助于体育产业的智能化发展。目前许多卷积神经网络在图像分类任务上取得非常好的精度,但网络模型的大小和运算量也随之增长,这就需要依赖计算机设备具有强大的计算能力和内存,这在一定程度上限制了卷积神经网络在资源有限的计算机设备上进行广泛的

学位

卷积神经网络轻量化体育图像分类数据增强模型优化

基于深度学习的布匹瑕疵检测识别的研究和应用

在布匹的实际生产过程中,由于生产设备故障和操作不当等因素的影响,易致使布匹产生折痕、破洞等瑕疵。为保证产品质量,需要对布匹进行瑕疵检测识别,布匹瑕疵检测识别也成为纺织品企业生产和质量管理中的重要环节。但是目前纺织品企业大都是依靠人工肉眼去检测布匹是否存在瑕疵,这种方法不仅存在检测效率低下、缺乏一致性等问题,而且人工检测易受体能制约和主观因素影响,出现漏检和错检等问题。鉴于上述原因,设计并开发一种能

学位

布匹瑕疵识别图像分类深度学习数据增强注意力机制

基于深度学习的文本图像文种识别研究

其他学术论文