【摘 要】
:
文字作为人类感知世界的重要手段,具有强大的表达能力,越来越多的领域需要利用场景图像中的文字信息。由于自然场景图像背景复杂、文本形状多变、尺度不一,目前的场景文本检测算法存在小文本漏检、长文本错检、相邻文本误检等问题,因此如何准确地检测出自然场景文本实例是一项具有挑战性的研究工作。针对上述问题,通过对文本检测算法进行深入研究分析,提出了一种高效的任意形状场景文本检测器:基于特征感知增强和图注意力的自
论文部分内容阅读
文字作为人类感知世界的重要手段,具有强大的表达能力,越来越多的领域需要利用场景图像中的文字信息。由于自然场景图像背景复杂、文本形状多变、尺度不一,目前的场景文本检测算法存在小文本漏检、长文本错检、相邻文本误检等问题,因此如何准确地检测出自然场景文本实例是一项具有挑战性的研究工作。针对上述问题,通过对文本检测算法进行深入研究分析,提出了一种高效的任意形状场景文本检测器:基于特征感知增强和图注意力的自然场景文本检测模型。具体研究内容如下:(1)针对不同尺度的特征融合不充分问题,提出一种多分辨率特征感知增强网络(Multi-resolution Feature-aware Enhancement Network,MFEN),其核心是双分支的多分辨率特征感知增强模块(Dual-branch Multi-resolution Feature-aware Enhancement,DMFE)。该模块采用并行的双分支结构,上层是具有感受野增强的金字塔池化分支,可以扩大特征图的感受野,将图像中不同尺度文本的上下文信息集成在一起;下层利用加权双向特征金字塔分支,构建两条融合路径,使得信息流可以双向传递,从而增强在每个网络层上对多尺度文本的感知。上下两个分支的共同学习,可以将全局和局部特征聚合在一起,使生成的特征图同时具有深层语义信息和浅层空间信息。在ICDAR2015、CTW1500和Total-Text数据集上进行大量实验表明,提出的MFEN模型可以减少文本错误分割、漏检等情况,在精确率、召回率和综合评价指标方面都有一定的提升,有效地提高了网络的检测性能。(2)针对文本组件之间错误链接问题,提出了一种文本组件注意力网络(Text Component Attention Network,TCAN)。MFEN模型输出高质量的特征图之后,每个文本实例会被划分成一系列小的矩形组件,然后将每个文本组件看作节点,根据节点几何属性构建出局部图。由于邻近节点对中心节点影响程度不同,在更新中心节点特征时,将图卷积网络与注意力机制相结合,利用图注意力网络(Graph Attention Network,GAT)对局部图做进一步的关系推理。GAT网络通过对每个邻近节点赋予不同的权重,来聚合它们的隐语义信息。实验结果表明,提出的TCAN模型可以有效提升文本组件的分类效果,进一步提高网络对自然场景文本的检测能力。
其他文献
由于Pb对环境和健康的不良问题,全球范围内正在进行大规模的无铅过渡。Sn Bi基焊料合金由于熔点低,拉伸强度高等优点而受到广泛关注。然而Sn Bi基焊料在服役过程中脆性金属间化合物生长过快以及界面Bi偏析等缺陷制约其在封装行业的应用。本文以Sn58Bi钎料为基础,研究Nb纳米颗粒增强、Cu基板镀Ni改性以及两种工艺联合处理对Sn58Bi/Cu钎焊接头组织及性能的影响。研究Nb纳米颗粒对Sn58Bi
机会网络是一种不需要源节点和目标节点之间存在完整链路,依靠节点移动构建消息传递路径的自组织网络,适用于缺乏稳定链路或无固定通信设施的场景。由于消息传递机制的特殊性,机会网络具有结构稀疏、拓扑时变等特点。链路预测是机会网络研究领域的关键问题之一,根据网络状态参数等信息发掘其动态演化规律,预测未来时刻的链路,为改善网络信息传输、制定路由协议等研究提供支撑。针对机会网络的多维链路属性和动态演化特性,考虑
金属波纹管膨胀节广泛应用于石油化工、核动力、航空宇航等领域,作为一种具有弹性位移补偿能力的压力容器,除了满足强度要求,必须适当减小刚度使其同时满足柔度要求更好发挥位移补偿能力。加强环的使用可以有效提高膨胀节的承载能力,但与此同时加强环使膨胀节刚度急剧增加,从而导致膨胀节的位移补偿能力减弱。目前国内外并未对加强环与膨胀节的装配间隙展开研究,在计算膨胀节强度刚度性能时也并未考虑温度差所带来的热应力,难
机械装备的健康管理是保证生产正常运转、避免安全事故、保障人员安全、提高经济效益的关键。其中,轴承作为应用性广、工作场景复杂的支撑部件和回转零件,其健康状态的监控、管理与预测,关乎各机械系统、部件的正常运行,因此具有重大意义。轴承故障诊断的难点在于轴承安装部位多为不易接近的位置、零部件拆装不易;轴承型号多变,标件非标件混杂;工作环境复杂,以航空发动机为例,部分场景具备高温、高压、复合振动的特点。因此
显著性目标检测旨在从输入图像中分割出视觉上最为明显的区域,而这部分区域有着图片中最为丰富的有效信息。因此,通过使用显著性目标检测技术,大部分计算机视觉任务可以只关注显著区域,从而获得更为高效的性能。随着深度学习技术的不断发展,显著性目标检测技术的性能也提升到一个新的水平,并广泛应用于计算机视觉的多个领域,如视觉跟踪、图像分割、图像质量评估、图像检索、人物重识别等。在基于卷积神经网络的SOD(sal
多目标优化问题由多个相互冲突的目标组成;当目标数超过三时,被称为高维多目标优化问题。由于目标之间相互冲突的性质,通常需要一组最优解用于平衡各个目标;进化算法在一次运行中能够生成一组解,被广泛地运用在多目标优化领域,形成多目标进化算法。多目标进化算法的目的是生成一组无限靠近Pareto前沿并且分布均匀的最优解;然而随着目标数目的增加,出现种群的收敛性和多样性失衡、算法普适性下降、无法获得Pareto
近年来,随着遥感技术的不断发展,遥感影像表现出多源、海量和高分辨率等特征,导致遥感数据呈现指数级增长,给影像金字塔构建和存储带来巨大挑战。因此,如何有效对海量遥感影像进行快速处理、存储以及提升查询效率是目前急需解决的问题。本文在使用Spark结合Geotrellis新型框架的基础之上,设计了一种基于Z曲线的Z-Curve瓦片索引,并结合Accumulo数据库完成对瓦片数据的存储和查询。通过实验验证
图像修复是计算机视觉中一个重要研究分支,其目的是预测合理的像素信息来填补图像中的缺失部分,主要应用于对象去除、图像恢复和图像去噪等领域。现有的深度图像修复算法有两种:非盲修复算法和盲修复算法。非盲修复算法以缺损图像和其相对应的掩膜作为输入,该算法根据掩膜来确定缺失区域的位置。但由于图像缺损的多样性,在实际的修复操作中,难以获得精确的掩膜,因此难以满足实际需要。而盲修复算法解决了这个问题,只以缺损图
随着数字化转型升级和图像处理技术的普遍应用,海量非结构化数据的产生为信息存储带来了新的挑战。为应对挑战,信息存储的载体逐渐由纸质载体转变为数字载体。相较于传统的纸质载体,数字载体具有占用空间小、存储时间长、传输速度快等优势。因此,纸质文档数字化已成为必然趋势。然而,在数字化过程中,由于各种误差的存在,使得文档图像通常会出现一定程度的倾斜、偏移或是透视,进而增加后续图像处理的难度。因此,在处理图像前
现阶段,随着数字化管理的快速发展,现实生活中的系统日益复杂化,这些系统可以抽象表示为复杂网络,方便对其进行研究。社区结构作为复杂网络的众多特性之一,对其挖掘为认识复杂网络的拓扑结构和主要功能提供了新的途径。例如掌握犯罪小团体、控制公共舆论、购物平台的个性化推荐等很多问题都能通过识别网络中的潜在社区来解决。本文利用复杂网络的局部信息对网络中的社区结构展开研究,主要工作有:(1)提出了基于边界节点的局