基于深度学习的文档图像与自然场景文本识别

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:dellson
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字是人类社会信息交流的基本工具,在人们的生活中扮演了重要的角色。随着信息技术的发展,数以亿计的图像充斥在互联网的每一个角落,人们希望能够通过计算机来高效地理解和处理图像,而文字信息对于图像理解至关重要。因此,文本图像识别几十年来一直是一个热门研究方向。本文主要研究了文本图像识别的两个重要方向:中文文档图像识别和中文场景文本行识别。这两个问题具有一定的相似性,总体上都可以利用一个序列识别模型来处理。本文的主要研究工作和贡献如下:1.针对中文文档图像识别问题,本文研究了中文古籍文本行的识别与单字分割,首先通过一个基于注意力机制的序列识别模型来端到端地识别文本行图像,然后利用识别模型获取权重概率分布,最后根据坐标映射关系找到原图中的单字位置,实现了弱监督的文本行单字分割。本文的识别方法达到了96.83%的识别率,弱监督分割方法在交并比(Intersection over Union,IoU)为0.5的情况下达到了94%的精度。本文提出的方法能够在识别古籍文本行的同时给出单字的大致位置,可以应用到辅助标注系统中,降低标注单字的人力成本。2.为了解决中文场景文本行识别问题,本文提出了一种基于残差卷积和残差循环神经网络的文本行识别模型。中文的类别数大、结构复杂,需要层数更深、参数量更大的识别网络,这会导致梯度消失和爆炸的问题,限制了模型性能,而残差连接能够帮助梯度传播,使网络训练更加简单,最终达到更好的识别效果。单字识别率提升了3.76%,整行识别率提升了5.43%。3.在中文场景文本行识别问题中,为了提升注意力机制模型的识别效果,本文提出使用多头注意力机制来代替普通的注意力机制,多头注意力机制通过在切分的多个通道分别计算权重概率分布,可以关注到汉字的不同部分,具有模型集成的效果,能够提升中文文本行识别性能。单字识别率提升了4.87%,整行识别率提升了6.38%。4.基于中文文档图像识别和中文场景文本行识别的研究,本文对比了时域连接分类模型和注意力机制模型在中文文本识别任务中的表现,分析了时域连接分类模型和注意力机制模型在中文文本识别中的优缺点和各自适用的应用场景。
其他文献
银屑病目前病因尚不明确,也没有彻底治愈的医疗方法和药物,仍然是一个世界性医疗难题。其在临床中有较多特征表现和变化,如何采用有针对性的治疗措施一直是医学界广泛探讨的
为了从深加工食品中提取高质量和数量的动物源性DNA片段,以优化后CTAB方法提取,用于PCR检测。根据鸭线粒体基因序列,设计合成检测鸭源性成分引物,进行PCR体系和反应条件的优
潘正炜是清代十三行商,著名的书画鉴藏家、书法家,听帆楼是其书斋室名。本文通过分析潘正炜的鉴藏活动,探讨了听帆楼的历史信息及其丰富的书画藏品,展示了其对岭南书画鉴藏文
铁不仅是宿主生长繁殖不可或缺的基本元素,也是绝大多数微生物必备的营养元素[1]。因此,铁已成宿主-病原体相互作用的关键决定因素,影响并调控多种胞内菌的生存和复制。已有
会议
介绍了硅铁铁水包内衬原用耐火砖衬的结构及使用中存在的主要问题,论述了耐火浇注料的研制过程及浇注料包衬的施工工艺、结构和使用效果。
<正>新一轮课程改革的核心理念是:为了每位学生的发展.校本课程的开发已成为新一轮基础教育改革的一个亮点,越来越多的学校通过开发校本课程资源,凸显自己的办学特色.校本课
<正>信息化是当今世界经济和社会发展的大趋势,已经成为社会经济发展的主要推动力之一,正在改变着传统的生产和经营方式乃至生活方式。信息技术日新月异,它不仅是科技进步的
目的从中药苦参中快速分离纯化氧化苦参碱。方法采用反相C18柱色谱与正相低压干柱柱色谱从苦参的醇提物中分离纯化氧化苦参碱。结果经优化操作条件的反相柱色谱可去除非极性
随着互联网的发展,视频、图像已经成为生活中主要的数据资源,其中文本信息具有高层的语义信息,是对视频内容最直接的阐述,可以用于视频的检索、分类、理解等多方面。图像文本识别在计算机视觉中引起了诸多关注,已经提出了很多可观的算法并达到了工业生产上的性能要求。相对于图像文本识别,视频文本读取研究比较少,但是工业上文本读取背景更多是使基于视频的,所以研究从连续的视频帧中读取文本更有意义。现有的视频文本提取的
<正> 为合理确定工程造价,节省建设资金,提高投资效益,必须对工程竣工决算进行审查。这是加强工程造价管理必不可少的一项重要工作。