【摘 要】
:
计算机视觉一直是图像领域的研究热点,而自然场景图像中可能出现的路标和广告牌等包含文字信息的物体可以提高图像的上下文信息和语义信息,从而帮助更好地理解图像。经过科研人员的努力,许多优秀的自然场景文字识别方法被提出,这些方法逐渐从对简单规则文字的识别发展到对弯曲和倾斜等非规则文字的识别。但面对复杂的自然场景条件,如何提高文字识别算法的准确率,获得更好的识别效果仍然是计算机视觉领域的研究热点。本文提出了
论文部分内容阅读
计算机视觉一直是图像领域的研究热点,而自然场景图像中可能出现的路标和广告牌等包含文字信息的物体可以提高图像的上下文信息和语义信息,从而帮助更好地理解图像。经过科研人员的努力,许多优秀的自然场景文字识别方法被提出,这些方法逐渐从对简单规则文字的识别发展到对弯曲和倾斜等非规则文字的识别。但面对复杂的自然场景条件,如何提高文字识别算法的准确率,获得更好的识别效果仍然是计算机视觉领域的研究热点。本文提出了一种基于卷积循环神经网络(Convolutional Recurrent Neural Network,简称CRNN)的自然场景文字识别算法。该算法由多角度非规则文字识别模块和基于语义分割的注意力模块组成,结合CRNN和语义分割算法的优势,利用图像中多个角度的特征识别非规则文字。CRNN算法是一种准确率较高的规则文字识别算法,通过改进CRNN算法获得的多角度非规则文字识别模块能够对非规则文字进行识别。该模块首先从四个角度提取图像的特征序列和对应的字符位置可能性序列;然后通过编码器将四个角度特征序列进行融合编码,获得图像的文字特征序列;最后通过解码器得到图片的最终文字预测结果。为进一步提高文字识别的准确率,本文提出了基于语义分割的注意力模块,在多角度非规则文字识别模块前对图像进行处理。该模块使用语义分割算法对输入图像进行语义分割处理,并对图像中背景和噪声区域进行抑制,提高后续文字识别模块的准确率。为验证所提出的基于CRNN的自然场景文字识别算法的性能,本文分别在规则文字数据集和非规则文字数据集上进行测试。实验结果表明,所提出的多角度非规则文字识别模块在规则文字数据集SVT上准确率达到97.3%,在非规则文字数据集CUTE80上准确率达到65.1%。同时,相比现有的大多数算法,所提出的角度非规则文字识别模块减少了网络参数。结合基于语义分割的注意力模块,多角度文字识别模块在非规则文字数据集CUTE80上准确率达到66.2%。实验结果证明,本文所提出的基于CRNN的自然场景文字识别算法能够获得更好的自然场景文字识别效果。
其他文献
丙氨酸-乙醛酸转氨酶(Alanine:glyoxylate aminotransferase I[AGT])催化中间代谢产物乙醛酸转化为甘氨酸,这个反应是一种有效的解毒反应。食肉动物在肝细胞线粒体中催化羟脯氨酸转化为乙醛酸,植食动物在肝细胞过氧化物酶体中将乙醇酸转化乙醛酸,乙醛酸虽然本身不一定有害,但很容易氧化代谢产生草酸,生成的草酸在动物的肾脏累积,最终生成肾结石,危害机体健康。本论文通过对哺乳
主管的管理方式对整个组织的发展有着至关重要的影响,人性化的管理方式在现代企业管理中更加受到人们的重视。离职倾向作为一种消极的态度倾向,对组织的长远发展十分不利,而辱虐管理这种负性的管理方式更会激起组织成员的排斥心理,它不仅会影响焦点员工的心理和行为方式,并且会对感知到辱虐管理的第三方造成不同程度的消极影响。以往的辱虐管理研究中,很少有学者立足第三方的视角来探究辱虐管理的作用机制,对替代性辱虐管理缺
伴随《普通高中地理课程标准(2017年版)》的颁布,地理教科书迎来了新一轮的修订。新教科书的修订以培养地理核心素养为主要目标,教科书的结构、案例选择、呈现方式均有较大改
Stieltjes微分方程适用于统一描述右端不连续微分方程和脉冲微分方程,在生物学和物理学等领域有广泛的应用。本文主要研究Stieltjes微分方程解的存在性、连续依赖性与稳定性。首先,给出g-函数一致收敛与极限函数的连续性结果,单调函数极限和积分可交换的充分条件,以及线性Stieltjes微分方程对应的g-指数函数的性质。其次,研究非线性Cauchy问题,通过选取BCg([O,H],R)工作空间
本文利用机器学习方法探究股民评论情感极性,建立包含股民每日情感极性特征在内的多特征结合的个股股价涨跌分类模型,为证劵从业人员决策提供参考。总体流程分为三个阶段:首先,通过语法分析和支持向量机的方法,计算股民评论文本的情感极性数值;之后,通过聚类算法从每日股评情感数据集中选择具有代表性的评论极性特征;最后,建立基于股民情感极性特征与多种特征结合的股价涨跌分类预测模型。本文的主要研究内容和贡献如下:(
经过几十年的发展,神经网络以其出色的自学习能力,强大的非线性映射能力、容错性高、鲁棒性强、并行计算信息处理方式等特点,已在众多领域得到广泛应用。而如何将神经网络这一优势技术应用到控制学科则逐渐成为众多相关领域的研究重点,本文旨在通过神经网络的学习能力和映射能力,提高相应算法的性能指标(例:精度、速度等)。线性神经网络作为神经网络发展过程中的重要成果,本文将其与卡尔曼滤波算法耦合,并将其应用到受控状
命名实体识别(NER)是自然语言处理技术的一个重要分支,通过识别文本中的实体并标注出来,起到从自然语言中突出重点,提取用户的关键需求的目的,方便系统进一步的处理,实现用户期望的功能。智能语音电视是传统电子产品与AI结合的发展方向的代表,在人机交互上,传统的操作面板式控制机器的方式在一定的范围内将会被语音控制、手势识别和人脸识别等更加智能化的方式所代替,解放用户的双手,是人们的生活更加便捷。随着深度
现阶段我国农业发展正处于由传统农业和传统的小农生产向现代化农业和社会化大生产转变的关键时期,农业生产中的各个环节以及各个领域的发展都需要先进的农业生产技术、高效率的生产设施以及现代化的市场经营管理理念。习近平总书记在党的十九大报告中指出“三农”问题是全党工作的重中之重,而农民问题则是“三农”问题中的根本性问题,而新型职业农民则是具有一定的农业专业技能和营销管理技能的高素现代农业生产经营从业者,因此
鸡胚是研究禽类的模式生物,但由于禽类种类繁多,孵化期具有多样性,且水禽与陆禽具有较大差异,所以以鸡的胚胎发育作为研究禽类的模型就会存在局限性。本试验对金定鸭的种蛋进行孵化,建立鸭的胚胎发育体系从而去解决这一问题。同时本试验也对三黄鸡种蛋进行了孵化,从而进行了鸡和鸭的胚胎发育对比。这样无论是对于研究陆禽或是研究水禽的学者都能提供便利。并且,胚胎发育在禽类喙部、四肢、羽毛及转基因禽类的研究中也发挥着重
当今时代,我国国民经济支柱产业之一就是建筑行业,但作为建筑人能够看出中国的建筑业仍然是一个传统模式为主的行业,它不符合中国进入高质量发展阶段的时代要求。因此,中国需要大力发展装配建筑。为了支持装配建筑的发展,自2016年起,我国还发布了一系列国家级文件。虽然国家积极推进装配建筑,逐步完善政策和标准的相关规定,但因为建筑总造价较高,从事该专业的建筑人才较匮乏,而且技术层面缺乏支持,装配式建筑的发展并