【摘 要】
:
自然场景中的文字往往包含着丰富的语义信息,准确提取图像中的文字对机器场景理解、人工智能发展及工业自动化生产等行业都有着重要的作用。因此,对场景文字检测技术的研究非常重要。与通用目标不同,场景图像中的文本不仅具有更多的尺度,而且容易受到复杂背景的干扰。随着深度学习的飞速发展,基于深度学习的文本检测方法也层出不穷。目前基于深度学习的场景文本检测算法大体上可分为三类:基于回归、基于分割和回归与分割混合的
论文部分内容阅读
自然场景中的文字往往包含着丰富的语义信息,准确提取图像中的文字对机器场景理解、人工智能发展及工业自动化生产等行业都有着重要的作用。因此,对场景文字检测技术的研究非常重要。与通用目标不同,场景图像中的文本不仅具有更多的尺度,而且容易受到复杂背景的干扰。随着深度学习的飞速发展,基于深度学习的文本检测方法也层出不穷。目前基于深度学习的场景文本检测算法大体上可分为三类:基于回归、基于分割和回归与分割混合的文本检测算法。依据是否使用锚框,基于回归的算法又可以分为基于anchor和anchor-free两种方法。近年来,基于anchor-free的文本检测算法因其简单优雅的网络结构而备受关注。本文主要围绕基于anchor-free的场景文本检测算法进行研究,主要的研究内容如下:(1)提出了基于残差结构的改进型EAST算法。在高效准确的场景文本检测(an Efficient and Accurate Scene Text Detetor,EAST)算法基础上引入残差结构,在每一个卷积块后增加若干残差模块,通过增加网络深度扩大了感受野,同时解决了梯度消失的问题。其次,对损失函数进行了改进,将预测文本框与真实文本框中心点间的距离作为惩罚项加入损失函数,解决了传统交并比损失在预测框与文本框不相交时梯度无法回传的问题。该算法在ICDAR2015和MSRA-TD500数据集上进行实验,相比EAST检测精度明显提高。(2)提出了基于感受野模块和笔画宽度变换的改进型EAST算法。首先,受人类视觉系统感受域的启发,将常规卷积和不同扩张率的空洞卷积结合后进行通道拼接,组成了感受野模块(Receptive Field Block,RFB),使用了步长为2的RFB模块替代特征提取层每个stage的最后一个卷积层和池化层,加强了特征描述的稳定性,并在最后一个stage再接入一个RFB模块以扩大感受野。另外,在非极大值抑制阶段后增加了一个笔画宽度变换(Stroke Width Transform,SWT)阶段,将预测文本框向首尾两侧按一定规则扩大,并进行笔画宽度变换,根据条件判断扩展区域是否存在文本信息,从而补全长文本。该算法在ICDAR2017 RCTW及MSRA-TD500数据集上实验,不仅增加了定位的准确度,还大大改善了长文本的检测效果。(3)提出了一种基于Corner Net的场景文本检测算法,以包含位置信息的中心坐标替代了嵌入向量进行左上角和右下角的关键点匹配。该算法通过检测左上角和右下角这一对关键点来定位文本框。对于每一个关键点,都从其位置预测一个指向目标文本中心点的向量,并根据该向量产生一个中心点坐标,若两个中心点相近且都处于预测框的中心区域内,则这两个关键点匹配成功。此外,在损失函数部分添加了向心向量损失替代原推拉损失。该算法与Corner Net算法在ICDAR2015数据集上进行了对比实验,精度提升显著。
其他文献
可见光通信相对于传统射频通信具有数据速率高、安全性好以及可以使用无许可证频段等特点,目前可见光通信已成为无线通信领域的一个研究热点。借助成本低廉的固态照明器件,如白光二极管(White LED),可以同时实现节能照明和数据传输。然而,可见光调制信号由于强度调制/直接检测(IM/DD)传输方式的作用使得发光LED强度发生变化,可能会导致闪烁,闪烁可能会导致自闭症患者出现偏头痛、头痛甚至重复行为。因此
模糊聚类算法的核心思想是根据模糊隶属度将具有相同特征的数据点放入同一类别中,将具有不同特征的数据点放入不同的类别中。由于模糊聚类算法具有简单、灵敏度低的特点,可以帮助人们在数据中找到有用的信息,在图像分割领域它是一种非常热门且较为成熟的算法。虽然基于传统模糊聚类的许多改进算法已在图像分割有了广泛应用。但传统的模糊聚类算法仍然还有一些需要改进的地方。一是传统的模糊聚类算法图像分割结果易受到异常值的影
随着互联网的高速发展,全球数据总量呈现爆炸式增长。为了解决“信息过载”这一问题,推荐系统成为了学术界和工业界重点关注的对象,并且在实践中也得到了广泛应用。其中,商业模特中介行业急需一种智能且高效的商业模特推荐系统,来代替目前低效的传统模特推荐流程。然而,为商业模特中介构建一个模特推荐系统,面临了诸多的难点。首先,模特推荐系统不是一个典型的推荐系统,它缺乏大量的、多用户的历史交互数据作为支撑;其次,
鬼成像技术是一种通过测量参考光场与探测光场之间的关联函数从而获取目标图像信息的新型成像技术。它是一种不同于传统光学成像的成像方式,由于其通过测量光束之间的空间相关性进行成像的特点,所以在遥感成像、超分辨率成像等多个领域都扮演重要的角色。但鬼成像技术也由于其自身的特点,需要大量的采样来重建高质量的图像。近年来,深度学习鬼成像成为图像处理领域的热点研究课题。但是现有的方法在面对低采样率下的鬼成像图像重
近年来,能源的紧缺导致太阳能技术尤为重要,引起了各种光热转换材料的快速发展,并在生物医学、环境污染和海水淡化等领域有着非常广泛的应用前景。如何克服太阳能利用率低和增强光吸收强度,并探索出高效新型的光热转换材料一直是热门研究课题。本论文提出了将梯度折射率结构引入到碳基材料中,通过该结构减少反射和增加透射的功能促使底部的材料吸收更多的光子,增强吸光能力从而提高材料的光热性能。并通过改变基质玻璃类型,选
二阶非线性频率转换是非线性光学研究中的重点之一,在光谱学、激光脉冲、全光通信、生物医学检测等领域有着重要的应用。其中利用高压电场周期性调制非线性晶体二阶非线性系数的准相位匹配(QPM)技术可以简单有效的实现相位匹配,从而实现转换效率较高的二阶非线性频率转换。现如今,在一个设备上实现单一的QPM已经不能满足人们的需求,各种结构新颖的光学超晶格能满足多重QPM条件,同时实现多个波长的频率转换。本文中,
在最近几十年间,长距离光纤通信技术实现了巨大的突破,如何进一步扩大通信容量一直都是该领域的一个重点研究问题。特别是在1450 nm到1650 nm波长区域,由于传统的掺铒光纤放大器(EDFA)以石英为主要增益介质,其稀土离子掺杂浓度低、较小的增益带宽等问题极大地限制了通信技术的进一步发展。与此同时,随着基础工业和集成光学的高速发展,高增益、低成本、小尺寸的光纤放大器逐渐受到人们的青睐,在民用和军用
经颅交流刺激(Transcranial Alternating Current Stimulation,t ACS)是一种非侵入性的脑刺激方法,可调节电极下皮质区域的振荡神经活动。通过对人脑进行电刺激收集的行为数据来分析电刺激的有利影响是目前该方向研究的热点。本文从经颅交流电刺激出发,结合不同的行为范式与数据分析,探索了健康成年人在电刺激后的行为表现变化以及脑电信号变化。本文的主要研究内容及创新点
电磁逆散射成像是一种基于电磁感应的新型成像技术,其通过向探测区域发射入射电磁波,并使用反演算法处理探测区域内目标散射的电磁回波信号,从而获得该目标电磁参数分布。电磁逆散射问题本质上是反演问题,其存在非线性和病态性,传统的信号处理算法难以有效地对高对比度目标进行重建。针对该问题,本文结合贝叶斯理论,研究具有更好适应性、更强抗噪性、以及更高成像精度的非线性电磁反演算法。主要研究内容如下:1、首先从物理
大数据时代,由于数据量的飞速增长和算力的不断提升,深度学习方法的性能得到了巨大提升。但深度学习模型依赖大量的数据标注,往往需要人工参与,耗时耗力。为此,迁移学习(Transfer Learning,TL)应运而生。迁移学习旨在借助标注丰富的源域知识帮助标注稀缺的目标域学习,无监督领域自适应(Unsupervised Domain Adaptation,UDA)是迁移学习中的重要研究方向。在UDA中