基于深度学习的场景文字检测

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:liliansun71
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
场景文字检测是计算机视觉、文档分析等领域的重要研究方向,具有广阔的应用场景,如车牌识别、无人超市、地理定位、盲人阅读、自动驾驶等。尽管经过多年的研究,场景文字检测算法已取得许多研究成果;然而由于场景文字的语种、布局、尺度、字体、外观、方向等变化较大,以及场景图像的背景具有复杂多样性,给场景文字检测任务带来了巨大的困难和挑战。目前,任意方向、任意形状的场景文字检测,以及相近、相邻位置的场景文字检测,仍然具有挑战性。近年来,深度学习在许多计算机视觉问题中取得了广泛成功。本论文基于深度学习技术,面向高效的场景文字检测,重点研究有效、新颖和鲁棒的特征获取方法,设计网络模型,针对场景文字检测任务中出现的问题提出一些解决方案。论文的主要工作及创新点如下:(1)论文提出一种基于文字区域信息预测模型的场景文字检测方法,以解决任意方向的场景文字检测问题。该方法基于文字笔划和文字中心块的思想,将一个文字实例拆分成文字笔划和文字中心块两种成分。文字笔划区域和文字中心块区域分别通过一个结构相同的全卷积神经网络实现预测,并由一个文字边界框生成算法实现两种成分的组合。实验结果表明,提出的场景文字检测方法不仅可以检测多尺度、多方向的场景文字,而且也可以实现多语种的场景文字检测;另外,提出的场景文字检测方法不必特意对场景文字的方向信息进行回归。(2)论文提出一种基于注意力和双向LSTM模型的场景文字检测方法,以解决任意形状的场景文字检测问题。该方法设计了多尺度上下文感知的特征提取模块,来提取上下文信息丰富的特征,以提高方法的精度;设计了双向的LSTM模块,利用字符间的空间序列特性提高方法的精度;设计了注意力模块,对不同层特征的重要性作出估计并实现重新组合,以提高方法的召回率;提出使用文字区域轮廓来表示任意形状的文字区域;另外,提出了一种不规则形状的文字中心块标签生成的算法。实验结果表明,提出的场景文字检测方法可以检测任意形状、多语种的场景文字。(3)论文提出一种基于多级特征增强累积网络的场景文字检测方法,以解决相近、相邻位置的场景文字容易发生的黏连问题。该方法设计了多级特征增强累积(MFEC)模块,实现多尺度、不规则形状的场景文字检测;引入空间注意力模块和通道注意力模块,提高空洞卷积特征表征的累积增强能力;设计了多级特征融合模块,整合不同级别的MFEC特征,实现场景文字信息的自适应编码。实验结果表明,提出的场景文字检测方法可以检测任意形状、多语种的场景文字,克服相近或相邻场景文字间的黏连,在几个公开的数据集上性能表现突出。
其他文献
基于清代以前环巢湖区域开发活动奠定的基础,结合清代全国人口增加的大背景,研究和总结清代进入人口激增时期环巢湖区域的圩田、山林、水域开发历史及意义,分析开发活动对生
一、引言多年来,各地区之间尤其是发达地区与相对落后地区之间在经济上的合作,多带有明显的不平等性.地区之间的合作往往表现为浅层次的、合作利益的分配与争夺上.发达地区凭
以超级粳稻品种沈农265为试材,采用大棚旱育毯苗试验,在常规营养土中添加不同比例生物炭,研究生物炭对水稻秧苗生长及内源吲哚乙酸(IAA)、赤霉素(GA3)、细胞分裂素(CTK)和脱落酸(ABA
偏头痛是一种周期性发作的血管性头痛,多由脑血管机能紊乱而致阵发性单侧或双侧头痛, 可伴恶心、呕吐、视力障碍及其它大脑功能障碍症状.多发生于15~40岁之间,女性多于男性.本
在过去几年中,人工智能技术的发展速度远远超出了我们从前的想象。从计算机视觉到语音识别,到自然语言理解,包括机器阅读和机器翻译,甚至对话式人工智能都逐步在接近人类水平
期刊
<正> 优质原料和活性酵母是生产高质量啤酒的基础。而优秀的工艺设计是充分利用原材料的关键。对于控制良好的发酵,每批发酵液的总酵母活力都被控制在一个相当高的水平。为达
目的:制备并鉴定桉油β-环糊精包合物,以证实应用包合技术改进桉油剂型的可行性。方法:分别采用薄层层析法(TLC)、红外光谱法(IR)、紫外分光光度法(UV)及气-质联用法(GC-MS)
车速和车型作为重要的车辆信息,在道路监控系统中发挥着很大的作用.传统的基于视觉的车辆信息识别方式由于计算参数过大且提取的特征不足,难以满足智能交通实时性和普适性的
<正> 2002年9月16—19日,由南京艺术学院音乐学院、中央音乐学院音乐学研究所、南京艺术学院音乐学研究所联合主办的“当代音乐学研究专家论坛”在南京举行。与会代表共30余
采用土钻法对黄土高原天然草地群落根系的垂直分布特征进行调查研究,同时用根系扫描仪EPSON TWAIN PRO(32 bit)和专业的根系形态学和结构分析应用系统WINRhizo对根系长度、根