基于深度学习的自然场景文本识别算法研究与应用

来源 :电子科技大学 | 被引量 : 1次 | 上传用户:gaoyunlonggao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本内容包含了丰富的信息,图像中文本内容的检测与识别已经是当下的研究热点之一。对于背景简单的场景,例如文档扫描图像中文本内容的识别,现有算法的效果优秀。但在自然场景中拍摄的图片,背景复杂、包含的字符的字体变化较大、分辨率各不相同,这些问题对文本检测造成了挑战;一些文本区域中的字符可能是不规则分布的,对文本识别造成挑战。面对以上挑战,本文从自然场景图像中文本区域的检测以及识别两个主要方面进行研究,旨在提出一种识别准确率更高的端到端的中英文文本检测与识别算法,并将本文提出算法在路牌场景文本识别中的应用进行研究。本文的研究工作主要分为以下三点:(1)为了解决自然场景文本检测效果不足的问题,本文选择以整体性能相当不错的EAST(Efficient and Accuracy Scene Text)算法为基准,然后分析该算法存在的问题:对长文本区域检测效果不佳。通过改进训练标签生成时文本区域对长边向内收缩的比例、在算法的网络结构中增加特征增强模块增大特征提取主干的感受野、置信度损失函数由平衡交叉熵损失函数改进为Focal loss损失函数,改进EAST算法在公开数据集ICDAR(International Conference on Document Analysis and Recognition)2015数据集上的F1分数由76.40%提高到了82.24%。(2)为了解决自然场景文本识别效果不足的问题,本文选择以经典的CRNN(Convolutional Recurrent Neural Network)算法为基准,针对CRNN算法对于字符分布不规则的文本区域图像识别效果不佳的问题,本文提出引入可变形卷积对CRNN算法的卷积层部分中的卷积进行替换,减少了背景的干扰,而且可以提取到更多字符笔画的特征,因此改进CRNN算法对自然场景文本识别的准确率得到了提高,在ICDAR2015数据集上的识别准确率由65.3%提高到70.6%,在IIIT5K-word数据集上的识别准确率由85.2%提高到了90.3%。(3)为了解决路牌场景文本识别算法准确率不足的问题,本文提出一个包含多种类型的路牌、从多种环境中拍摄的路牌图片的数据集,该数据集比较好地模拟了真实的自然环境中的路牌。然后,将本文提出的文本检测算法与文本识别算法组合为端到端文本识别算法,在路牌场景数据集上进行性能测试,本文算法识别的准确率与基准算法相比,从78.6%提高到84.3%。最后,为了方便实际使用,为该端到端文本识别算法实现了一个拥有可视化界面的软件。
其他文献
现代机械设备的集成度不断提高的同时,其工作环境也因工作需求的提高而逐渐恶化,因此对设备进行及时测试以确保其不会因某部件故障引起的链式反应而遭到破坏的重要性是不言而喻的。然而现有的大多数设备在进行测试时都需要停机甚至拆卸部分结构,这样的测试方法存在着效率低且成本高的问题。因此对设备进行测试性设计,即在设备的设计阶段就对测试工作进行考虑,从而进行包括测试对象、测试参数、测试手段在内的测试工作的整体规划
学位
在用电需求高速增长的当下,建设以新能源为主体的新型电力系统已成为当前我国电力能源行业发展的首要任务。伴随着大量间歇性、波动性分布式能源的接入,高峰时段下电力供需平衡的问题将为电力系统的安全稳定运行带来更大的挑战。在竞争性电力市场中,需求响应(Demand Response,DR)技术以经济性手段对需求端用电曲线进行调控,通过用户侧资源的自主转移缓解高峰时段供电紧张的问题。相较于传统备用机组,用户侧
学位
从医学图像中自动分割脑肿瘤对于肿瘤的生长评估和临床决策具有重要意义。其高性能通常需要使用多模态或对比度增强的图像。对于胶质瘤分割来说,流体衰减反转恢复(fluid-attenuated inversion recovery,FLAIR)模态对于整个肿瘤分割是高对比度的模态,而T1加权模态、对比增强T1加权(T1c)模态、T2加权模态是低对比度的,可是获取多模态扫描是昂贵且耗时的,就会产生高对比度模
学位
近年来,我国美丽乡村建设遍地开花,取得重要阶段性成果,公共空间作为乡村人居环境的重要组成部分,成为美丽乡村的重点建设内容。但随着美丽乡村建设的大量推广与普及,乡村公共空间逐渐暴露出“形象工程”“面子工程”等现象,仍面临持续衰落的发展困境。本研究以桓台县为例,运用使用后评价(POE)的方法,从村民的视角对美丽乡村公共空间建设情况进行满意度评价,衡量建设措施的合理与否,探讨现状美丽乡村公共空间建设中存
学位
随着经济的发展,能源结构发生了很大的变化。分布式电源的增多,新能源发电产业的兴起以及用户耗电活动的多样化使得电力系统的负荷预测呈现出非线性、随机性和不确定性的特点。精准的负荷预测可以影响电网规划的合理性、运行的安全性和供需平衡的经济性。为了量化负荷的不确定性和提高预测准确性,本文开展了概率密度负荷预测的研究以及多步预测的研究,研究内容如下:首先本文介绍了电力负荷的特点以及负荷的特性,本文中对后续使
学位
我国可再生能源资源丰富,以风能、太阳能和水能为主要能源的电力系统是我国未来能源电力的发展形态,但可再生能源存在间歇性、波动性的短板,而高比例的可再生能源渗透对电力系统安全稳定运行提出了新挑战。抽水蓄能电站是目前最成熟、最可靠、最安全、最具大规模开发潜力的储能技术,对于维护电网安全稳定运行、构建新能源占比逐渐提高的新型电力系统具有重要支撑作用。因此,本文引入了风-光-储(抽水蓄能)混合能源系统,提高
学位
限量供油润滑(Limited Lubricant Supply,LLS)是指通过限制润滑油的供给量,使零部件工作在降摩减摩的最佳润滑状态,降低搅油温升和摩擦功耗,保护环境。在有限量供油条件下,需要通过表面修饰方法使分流到轨道两侧的润滑剂向接触区内回流,即促进表面的自集油,提高润滑剂利用率。油性添加剂是润滑油常用的一种添加剂,能够降低摩擦表面在边界润滑条件下的摩擦力。同时,油性剂在摩擦表面形成的吸附
学位
目前基于深度学习的图像分割算法已经在医学领域获得了最佳的分割水准,但它的分割精度要依靠海量的具有高质量人工标注的医学图像。而一张三维医学图像的标注需要由较深领域知识的医生标注数小时才可以完成,因此获得大规模高质量的训练标注逐渐成为深度学习在医学图像分割上所面临的主要障碍。本文提出了一种新的基于低成本非配对标注的医学图像分割框架。它使用了获取成本低的与训练图像非配对的标注,而不需要对每个训练图像的人
学位
面对传统化石燃料引发的能源危机和环境问题,迫切需要可持续的清洁能源来改善这些情况。燃料电池和金属空气电池凭其能量转换效率高、安全和环境友好等优点备受关注。氧还原反应(ORR)是此类能源装置的关键半反应,但其动力学十分缓慢。铂基催化材料能有效提高氧还原反应的效率,但铂昂贵且稀少难以大规模应用。可见,有必要开发新型高效、高稳定性且价格低廉的非贵金属催化剂。金属有机框架材料(MOFs)是由金属离子或离子
学位
文章从文言文内核因子“事-形-情-理”的视角出发,为学生搭建学习模块,引领学生走进故事,初感表达逻辑,体悟人物情感,思辨文本道理,促进其习得文言文学习素养。
期刊