基于深度学习的不规则文本识别算法研究

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:jiu999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术不断发展,深度学习等人工智能的应用愈加广泛,计算机图像处理又是其中的重要组成部分。自然场景的文本识别技术作为计算机图像处理中的关键一环,近些年也处于不断发展之中。通过检测并识别自然场景下的文本,获取自然场景中的人们所需要的信息在车牌识别、人机交互等多个领域都有着广阔的应用价值和前景。自然场景中的文本识别与文档中的文本识别不同之处在于自然场景的背景更加复杂多样,同时,排列方向不确定、形状弯曲等不规则文本在自然场景中随处可见,这在一定程度上增加了自然场景中文本的识别难度。本文针对自然场景下的文字特性,基于深度学习的方法对自然场景下的不规则文本识别算法进行研究,主要内容分为以下三个部分。1.研究了一种场景文本数据合成算法。场景文本图像存在着数据集数据量较少、图像质量参差不齐、人工标注不准确等一系列问题,这些问题对文本检测和识别算法的训练造成重大影响。为了解决这个问题,我们研究了一种场景文本图像合成算法,用以合成我们所需要的训练数据。2.针对自然场景中排列方向不规则的文本,我们在one-stage检测框架的基础上进行改进,在原始的水平矩形包围框中引入了角度参数?,使得文本检测框更加契合倾斜排列的文本。此外,我们将two-stage中的锚点学习机制集成在我们的检测算法中,用学习到的锚点替换原始锚点进入最终的预测,实现了更好的文本检测结果,我们的算法可以检测多角度排列的倾斜文本。3.针对自然场景中形状不规则的文本,我们研究了一种基于聚焦增强的不规则文本识别算法。传统卷积层的卷积核一般为3*3的矩形,但不规则文本在图像中可能呈现弯曲的形状,我们利用可变形卷积层对卷积网络进行改造,使得我们的文本识别算法的注意力聚焦在文本区域,从而提高对形状不规则文本的识别能力。此外,我们的算法不需要对形状不规则的文本进行矫正即可对其识别。
其他文献
现代教学理念与教学实践清楚地告诉我们:教学效果的好坏取决于课堂教学中的参与程度.本人通过多年来的教学探索,认为“营造民主和谐的课堂氛围,创设参与的条件,利用多种教学手段,设
相比商标等知识产权而言,地理标志属于国际公认的新型知识产权,本身已具有一些区别于商标的法律属性。地理标志不仅能反应特定地理环境与产品之间的关系,而且标志着产品的特定质量、信誉及其他特征,更是体现了产品背后所蕴藏着的创造性劳动成果与巨大的商业利益。而少数民族地区的地理标志除了具有很强的地域性,还具有浓烈的民族特色,研究和保护少数民族地区的地理标志具有深远的理论意义和实践意义。恩施土家族苗族自治州是中
基础教育的理念和实践不能偏离基础教育的"本位价值",不能脱离基础教育的基础性。当前提高基础教育质量应关注两个方面:一是明确基础教育的任务是为孩子切实打好基础,二是明
目的探讨全程多学科合作护理对老年COPD急性加重期患者的干预效果。方法选取老年COPD急性加重期患者150例分为对照组和观察组,各75例,对照组采用常规护理,观察组采用全程多学
为了给气管切开患者湿化气道和防止异物坠入气道,临床常规做法是将无菌纱布湿润后放在气管套管上,进行吸痰或气管内滴药时,需要反复打开纱布,患者咳嗽时可能将纱布吹落,喷出的分泌
57 件浅地下水样品从 Guiyang 石灰岩地区常见的地形盆被收集,中国,到分析,在低水的季节和它的水的稀土元素的元素被显示出在石灰岩地区常见的地形地下水的稀土元素的元素( REE
爱的无奈:开学第一节课,为了能够让学生了解日记的意义、格式及怎样坚持写日记,我首先介绍自己也在记日记及感受,还介绍名人得益于日记的故事,且日记能教会我们发现生活,感悟生活,学
消费社会传统的产品责任体系无法满足现实的社会需要,产品处置阶段责任主体的空缺,导致了“公地的悲剧”。延伸产品责任扩展了传统的产品责任的责任主体体系,较好地解决了产品废
《中华人民共和国草原法》、《国务院关于加强草原保护与建设的若干意见》(国发[2002]19号) 对草原监测工作提出了明确的要求。加快草原监测预警体系建设是全面贯彻落实《草
诱惑侦查的运用与公民权利保护始终是一对矛盾,如何解决二者之间的矛盾与冲突是立法者和司法者共同面临的课题。本文结合我国的刑事司法实践,从诱惑侦查的概念、各国关于诱惑侦