基于深度学习的自然场景文字检测方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:xiaosun988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着电子信息产业的快速发展,人们希望通过各式各样的电子设备理解这个世界的愿望越来越迫切。自然场景下的文字检测对于文字识别起到了至关重要的作用,同时文字识别对于理解当前的场景提供了高级的语言信息。不同于传统的光学字符识别(Optical Character Recongnition),对文本资料的图像文件进行分析识别处理,自然场景下的文字检测针对的是形式各异的文字图像,无疑提升了检测难度。近年来,深度学习的快速发展给图像检测提供了新的方法,本文通过使用ICDAR文本数据集,基于深度学习对自然场景下的文字检测做了以下两个方面的研究:1.基于实例分割神经网络的自然场景下的文字检测方法。语义分割神经网络针对图像中的每个像素点进行分类,实例分割神经网络在语义分割神经网络像素点分类的基础上再次划分出了每个检测目标的序号。本文中的实例分割神经网络,利用卷积神经网络提取图像中待检测区域的特征,再通过全卷积网络融合低级空间位置特征和高级语义信息特征,对图像中的每个像素进行分类,与此同时,预测当前像素与周围8个像素的链接,当像素类别为文本同时其与周围8个像素的链接都为正,则连接此片区域。此方法有效的解决了自然场景文字检测中目标区域背景复杂多变的问题,在ICDAR2015数据集上,对比Seglink算法在F值上提高了8.7%。2.基于可变形卷积和注意力机制的自然场景下的文字检测方法。区别于通用目标检测,自然场景下的文字目标具有更加不规则的形态。针对此问题,本文提出基于可变形卷积的文字检测方法,可变形卷积通过添加偏移量扩展了卷积的空间采样范围,解决了常规卷积只能在固定位置采样导致的缺陷,并且其不需要额外的监督项,能够直接在目标任务中进行训练。针对为了提取特征带来的网络过深的问题,本文基于注意力机制的自然场景文字检测,提出在构建基础特征提取网络的过程中加入注意力机制,注意力机制模拟人类处理视觉信息的方式,对一个场景只关心待检测的区域,利用注意力机制可以获取带权重的特征值,提升了本文自然场景下的文字检测方法性能,对比单纯的实例分割网络,添加可变形卷积和注意力机制的网络在F值上提升了1.1%。
其他文献
7月4日,中国建筑防水协会与北京零点市场调查与分析公司联合发布《2013年全国建筑渗漏状况调查项目报告》。报告显示,国内主要城市建筑屋面渗漏率高达95.33%。与此同时,57.51%的
报纸
本文在对三峡集团导入WACC投资决策财务评价体系的案例和访谈资料进行深入剖析,并梳理相关理论文献的基础上,采用探索性案例研究方法,从企业投资管控制度视角,提出了制度学习
目的:了解百姓对分级诊疗体系认知状况,为规范分级诊疗体系制度建设提供依据。方法:采用便利抽样法,利用自制问卷调查2014年12月在我院就诊的部分门诊患者,调查内容包括调查
本试验旨在利用单胃动物仿生消化系统(SDS-Ⅱ)研究外源淀粉酶对肉鸡玉米-豆粕型饲粮体外养分消化率和代谢能的影响,为准确评价饲用酶制剂的有效性提供依据。试验采用2×4双因
该研究估算了 2011到2016年间印尼商业银行的技术效率变化情况。运用数据包络分析和Malmquist指数对印尼证券交易所上市的20家商业银行的数据进行评价。文中运用了以投入为导
光固化陶瓷成型工艺早在20世纪80年代就已经形成,与传统的光固化成型技术相比,数字光处理技术(DLP)是一种新型的成型技术,该成型技术精度高,设备简单,可以构建复杂的光固化三
合理的营销策略,是房地产企业打开市场缺口取得优异成绩的关键.房地产企业应该重视营销的作用,把对房地产营销的管理当作房地产经营的重要环节.本文在理清房地产营销管理的相
近年来,随着旅游业的发展,国家旅游局、国家文化和旅游部也在不断出台一些相对应的指导意见促进休闲旅游业的发展。更是指出要以冰雪运动旅游、山地户外旅游、航空运动旅游等体育旅游新产品为重点发展对象。滑翔伞作为一项航空运动项目,传入我国近二三十年,属于我国的一种体育旅游新产品。河南省作为人口大省,在我国是成立滑翔伞俱乐部较多的省份,同时也引起了人们对这种新兴的航空旅游项目的关注。本文主要采用文献资料法、问
能见度,特别是斜程能见度,是大气测量中很难测准的参数之一,在航空领域中直接影响飞行器起飞降落的安全性。斜程能见度反演时需要高精度的气溶胶消光系数廓线,而激光雷达作为
从社会适应视角出发,针对河北省高校毕业生就业压力现状,分别对省内产业分布、就业政策、人才培养以及毕业生认知等现实问题进行归因分析,提出从坚持创新驱动、优化高校专业