自然场景文本检测方法研究与优化

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:liuking
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
图像中的文本信息作为信息提取的关键性突破点,如果能将图像中文本信息提取出来并且加以利用,势必可以极大地推动对图像信息的理解,有利于促进虚拟现实、无人驾驶等行业应用的深入开展,给人们生活带来翻天覆地的变化。图像自然场景文本识别的真正困难依然在于对文本的检测上,准确而高效的文本检测成为了文本识别的先决条件。因此本文主要围绕着自然场景文本检测任务进行深入的研究。通过结构优化等方法提升文本检测算法精度,并进一步将之应用于视频流文本检测的实现。由于视频文本具有文本位置和排列方向不固定、文本大小和形状的多种多样、文本背景干扰强等特点,使得传统算法对小感受野文本特征关注不够,从而引起小感受野特征图处理较少不利于后续处理、中层感受野比例不合理等问题,为此本文分别以EAST(Efficient and Accuracy Scene Text,EAST)、DRRG(Deep Relational Reasoning Graph Network for Arbitrary Shape Text Detection,DRRG)算法为基础,找出其在文本检测算法中的不足之处,更新算法结构以达到改善检测率的目标。以EAST算法为基础,针对小感受野文本特征关注不够,小感受野特征图处理较少不利于后续处理等问题,对算法加以改进,设计一种适合文本检测的算法。方法主要包括如下几种方法:替换特征提取网络加深网络层数,使深层网络特征抽象化。采用轻量型网络减少计算量;替换SE模块优化注意力机制;重新设计混合特征金字塔增加对小感受野特征关注度;融入BLSTM(Bi-directional Long Short-Term Memory)网络整合序列特征;替换损失函数加快模型收敛等。本文在DRRG算法的基础上,提出一种适宜于对自然场景视频图像中文本特征提取的轻量化网络结构,以获得文本深层网络特征,并减小文本特征提取的计算量。为改善对小感受野文本区域的关注和该区域文本序列特征,论文设计了一种混合特征金字塔-LC-BLSTM-FABSR网络结构,提出的改进结构在不明显增加计算量的同时,可以有效提高小感受野文本区域的关注度,均衡较大感受野比例,提升整体检测精度。
其他文献
目前,基于深度学习的目标检测算法发展成熟。其中,YOLO系列检测方法因其网络结构简单、检测效率高等优点被广泛应用于实际场景中。但是它在复杂场景中仍存在由目标定位不准确等原因造成的检测效果差的问题。尤其在目标分布相对密集且尺寸相差较大的情况下,中小目标的检测效果亟待提高。在对现有目标检测方法的研究的基础上,本文提出了一种基于YOLO架构的多尺度目标检测方法,从加强特征融合与传递的角度出发,解决目标位
学位
随着人工智能的不断发展,用户对人机交互界面的需求越来越高,人类希望计算机能够感知到人的情绪变化,使人与计算机之间的交流更顺畅。作为人机交互的关键技术,语音情感识别受到研究人员的广泛关注,在远程教育、医疗诊断和交通驾驶等领域都得到了应用。因此,语音情感识别研究具有重要的研究意义和实用价值。针对单一语音情感特征识别效果差的问题,给出了基于MFCC和IMFE特征融合的语音情感识别算法。本文使用情感特征参
学位
随着中国网络用户数量的激增,网络承载的压力巨大,而像电商、直播等网络应用的普及,更是把网络服务器的压力推到了极限。网络应用的供应商和国内研究学者也不断提出解决方案。原始服务器会通过提高服务器硬件的性能来解决高并发的问题,但是高昂的维护成本和维修费用使得这种解决方案不足以满足实际的应用需求,于是提出了服务器集群的负载均衡技术。本文的研究主要针对负载均衡的调度算法,解决大数据量的并发访问问题。本文提出
学位
近几年来,越来越多的犬类伤人事件发生在我们身边,有些甚至造成了极其恶劣的后果,在社区中违规饲养某些烈性犬种对居民们的人身安全构成潜在的威胁。为了及时获取犬种信息,合理规范社区养犬管理工作,本文使用深度学习YOLO算法进行犬类图像的识别研究,并在YOLOV3算法的基础上提出了改进,提高了原算法的识别精确度,同时保持了良好的检测速度,本文的主要工作内容如下:构建犬种数据集并进行数据预处理。本文通过网站
学位
近年来,随着我国民航的飞速发展,机场的吞吐量持续走高,给机场的运营带来了巨大的挑战,对于大型机场复杂的机场布局,仅仅依靠人工决策引导车的路径规划已经满足不了机场效率的要求。目前每个路径规划算法都存在着一定程度的局限性和缺陷,无法满足实际需求。因此通过对原有算法改进使其运用到实际引导车路径规划中提高机场效率具有重大的研究价值。本文采用全局与局部相结合的方法为引导车提供路径规划。首先针对机场环境采用A
学位
为解决当前各燃气公司对城镇燃气管道受第三方施工破坏的巡查存在的不及时、不全面、不准确和费用成本高等问题,采用新一代加速度传感器和物联网采集技术,通过对第三方破坏施工所产生的振动特征提取,达到城镇燃气管道受第三方施工破坏的实时监测和预警的目的。研究结果表明:①在距离燃气管道80米的范围内可准确监测到第三方施工作业;②第三方施工作业与汽车行驶所产生的振动波能进行明确区分;③通过对振动加速度峰值、峰值持
期刊
激光雷达(LiDAR)数据记录了地表不同物体的高度并且提供了丰富的高程信息,因此其在地物分类中具有重要的作用。近年来,由于深度学习模型具有较强的特征提取能力,使得它被广泛应用于LiDAR数据的地物分类中。然而,这些模型通常需要大量的训练样本才能取得较好的结果。但在遥感领域中,数据短缺是一种普遍现象,所以这限制了深度学习模型在LiDAR数据分类上的发展。此外,现有模型大多是针对某一数据的特性手工设计
学位
随着城市电力设施及轨道交通的快速发展,埋地钢质燃气管道除了常规土壤腐蚀之外,更加面临严峻的杂散电流腐蚀,危害极大。国内燃气企业通过事故教训已意识到此类保护的重要性。针对天津能源集团所属燃气管网在城市内的密集分布,为保护城市燃气管网安全运行,减少漏气爆燃事故的发生,开展城市埋地钢制燃气管道的杂散电流腐蚀防护监测与预警研究势在必行。文中分析了杂散电流的危害,通过研究杂散电流监测过程、牺牲阳极保护系统,
期刊
电能作为清洁能源结构中最重要的组成部分,对推动社会发展、科技进步有着至关重要的作用。电网系统、大功率电力电子设备、新能源汽车等领域对具有高能量密度储能器件的需求与日俱增。介电电容器,拥有比传统静电电容器更高的储能密度的同时,其充放电功率也十分可观。对于储能型复合介质,往往通过向聚合物基体中加入功能性纳米填料的方式来提升复合介质的极化、绝缘性能。尽管有大量的研究人员在该领域深耕,但复合介质的结构设计
学位
近年来,我国的城市化进程不断加快,城市建筑垃圾管理不当的问题愈来愈突出,我国针对建筑垃圾多数采用就地调研的形式时效性差且很难做到全方面的检测,因此对建筑垃圾进行快速检测的需求愈发强烈。遥感图像技术具有覆盖面积大、检测周期短的特点,非常适合检测建筑垃圾的堆放情况,实现对建筑垃圾的动态监测。本文针对遥感图像样本不足的问题对数据集进行了扩充,分析选取了单阶段目标检测模型YOLOv3和双阶段模型Faste
学位