基于深度学习的场景文本检测方法研究

来源 :安徽大学 | 被引量 : 0次 | 上传用户:wangxinyi808
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子设备的广泛普及和互联网技术的快速发展,人们的日常生活中的信息传递越来越多的以图像的形式进行。图像中包含丰富的信息,其中文本是一类对理解图像有着重要作用的信息,准确的检测出图像中文本有助于识别文本和理解图像。受益于深度学习的迅猛发展,检测场景图像中出现的文本的技术也取得了长足的进步,很多基于深度学习的场景文本检测算法能够非常有效的检测出场景图像中的文本,但是这些有效的方法都是以大型深度神经网络作为基础网络进行特征提取,因此这些方法的模型往往都非常大,参数量很多,检测速度也较慢。场景文本检测作为一种面向应用的技术,现实应用场景通常不仅要求模型能够准确有效的检测出文本,而且对模型的大小和运行效率也有着较高的要求。传统的大型的场景文本检测模型往往不能满足实际应用场景的需求,如何设计出小型化的文本检测模型并且高效的检测出场景文本已经成为一项重要的研究内容。近些年来,场景文本检测的任务一直备受相关研究人员的关注,成为图像研究领域的热点方向之一。一方面是因为场景文本检测有着极大的研究和应用的价值,应用在诸如自动驾驶,增强现实等领域有着巨大的潜力。另一方面在解决场景文本的检测的道路上仍然充满着巨大的挑战,场景文本的分布呈现着随机性、多样性、不规则性等特征,很难进行准确的检测。以深度学习为基础的场景文本检测方法虽然行之有效,但往往规模过大,难以应用到实际的生产和生活场景中去。本文在考察了众多的基于深度学习的场景文本检测模型的情况下,针对场景文本的特点以及更贴近实际应用的场景文本检测的需求,提出两个基于深度学习的场景文本的检测模型。本文的主要工作和创新点列举如下:1、考虑到场景文本的具有多方向、多尺度、形状不定、位置随机等特点,常规的四边形框难以对其进行准确的检测,而准确的检测对于进一步的文本识别又至关重要,为了高效而准确的检测出场景文本,本文提出了基于双分支特征融合的场景文本检测方法(Dual-Path Feature Fusion based Scene Text Detection,DPFF)。该方法采用轻量级的神经网络EfficientNet-b3进行特征提取,使用双路分支进行特征融合进而进行场景文本的检测。一路分支使用特征金字塔网络结构来融合不同层级的特征;另一路分支使用空洞卷积空间金字塔池化结构来扩大感受野,然后融合两个分支处理后的特征图,这种方式能够使得在小幅增加计算量的同时获取更多的特征,弥补小型网络提取特征不足的问题。最后使用渐进扩展算法处理分割图,得到最终的检测结果。在三个公开的数据集上的实验证明DPFF模型不仅能够有效的检测出多种场景文本,而且具有模型较小速度较快的优势。2、针对自然场景下出现的大多数文本为较为规整的多方向文本的特点,本文提出了一个基于EAST模型改进的场景文本检测模型Light-EAST。Light-EAST使用轻量型网络MoGA-A作为主干网络提取不同层级的特征,然后采用自上而下和自底向上两种方式地构建两种特征金字塔网络,两个特征金字塔网络并行运行,之后融合在一起。自上而下构建的特征金字塔对于小物体更为敏感,自底向上构建的特征金字塔对大物体更为敏感,融合两种特征金字塔能够起到相互补充的效果,使得模型更好的检测出尺度不固定的场景文本。最后模型使用融合后的特征预测出文本框的顶点的坐标,然后再使用非极大值抑制算法(Non-Maximum Suppression,NMS)筛选出得分较高的文本框,获取最终精确的文本检测框。实验结果表明Light-EAST模型能够对多方向场景文本进行高效的检测。
其他文献
保障残疾人的就业权、促进残疾人就业是政府义不容辞的责任。党和政府历来重视残疾人就业工作,十九大以来,出台了一系列保障和促进残疾人就业的政策措施,这为新时期残疾人就业的政府扶持提供了行动指南。十九届四中全会报告提出要以人民为中心,增进人民福祉,健全弱有所扶制度体系,坚决打赢脱贫攻坚战。残疾人群体实现小康社会的目标离不开就业,由于残疾人群体属于弱势群体,因此政府扶持残疾人就业是十分必要的。本文通过结合
基于脑图像结合机器学习开展个体认知指标分类(特别是针对是否患有某种精神疾病的分类)是当前神经影像学研究的热点。然而这些研究绝大多数是采用单标签分类,即每个样本只有一个标签。多标签分类允许一个样本有多个相互关联的标签,在基于脑图像的个体认知指标分类中,多标签分类不仅能一次性对多个认知指标同时分类,而且可以充分利用标签之间的相关性提升认知指标的分类精度。在种类繁多的脑图像中,静息状态功能磁共振成像(f
大气压介质阻挡放电产生的等离子体具有较好的均匀性,具有等离子体密度、温度以及能量适中等优势,被广泛应用于材料表面处理、环境保护、等离子体刻蚀臭氧合成等领域。在特定的条件下,大气压介质阻挡放电可以有不同的放电模式。针对于此,本文对大气压介质阻挡均匀放电的放电模式进行研究。基于一维流体模型,研究了氮气含量对大气压氦气放电模式的影响。当氮气含量从0.1 ppm增加到10000 ppm时,放电依次呈现出三
作为装备制造业的工作母机,机床工业成为关系国计民生、国防建设的基础工业和战略性产业。近年来,机床工业“大而不强”与“高、低档数控机床供给侧结构性失衡”等问题对机床工业转型升级与创新发展提出了新的要求。大连光洋科技集团有限公司(简称光洋)是成立于上世纪90年代的民营企业,在机床工业产值普遍下滑的新常态下,光洋连续4年成为国内五轴数控机床年产销量最大的企业。此外,光洋与其典型用户合作研发的各类高端五轴
超小发光金纳米粒子(AuNPs,d
针对Ni与其他材料的熔点、热膨胀系数和导热性等方面存在较大的差异,难以实现焊接问题,本文提出激光冲击高速焊接新方法实现焊接来实现焊接。研究了激光冲击焊接Ti/Ni金属薄
永恒暴涨的宇宙学模型预言了多宇宙的存在,对于多宇宙图景,如何引入时间箭头是一个长期被关注的问题。本文基于2000年Bousso与Polchinski建立的宇宙学常数具有离散结构的模型(BP模型),通过数值模拟真空演化动力学主方程,我们发现多宇宙图景中,如果同时存在anti-de-Sitter宇宙,Minkowski宇宙及de-Sitter宇宙,那么就会存在一种时间箭头。这种时间箭头与以往动力学演化
由于高光谱图像自身包含大量地物的光谱信息和空间信息,可以利用高光谱图像每个像素点对地物进行识别和分类,所以高光谱遥感图像技术在最近几年得到了研究学者的广泛关注。为了获取更加抽象和深层次的特征信息,可以使用深度学习方法去构建一个合理有效的神经网络来进行特征提取。论文主要采用3D卷积联合注意力机制网络以及利用多特征学习方法来构建网络对高光谱图像进行分类研究,之后又利用生成对抗神经网络对高光谱图像进行分
农业科技推广服务作为农业科技成果转化的必要环节之一,其推广质量成为社会各界关注的问题。为了实际了解法库县农业科技推广现状,为了从根本上发现其存在的问题和产生问题的
时滞混沌系统是含有多个正Lyapunov指数的超混沌系统,与非时滞混沌系统相比,它具有更为复杂的动力学行为,具有广泛的应用空间。时滞混沌系统的同步控制被更广泛的应用于信息