基于深度卷积神经网络的不规则形状文字行检测方法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:wenjun456852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于场景图像的自动文字检测是光学字符识别系统的第一步,是光学字符识别系统可以应用于各行各业的重要保证。自然场景文字检测技术已经成为计算机视觉和模式识别领域的研究热点,在日常生活和工作中如场景理解、产品检索、自动驾驶、地图制作、图像视频监控和文档检索系统等领域都有着广泛的应用,给人们的生活和工作提供了极大的便利。此外,随着大数据的爆发和计算机计算能力的提高,深度学习得到了快速的发展,并从学术研究领域迅速落地到工业界。深度学习的优势是不需要手工设计特定任务的特征,可以根据任务自动的从大量数据中学习特征,同时学到的特征有较好的鲁棒性和识别性能。由于深度学习具有上述优势,因此基于深度学习的场景文字检测方法取得了很大的进步,对于形状和长度比较规则的场景文字已经取得了不错的检测效果。但是由于卷积神经网络的感受野以及矩形框、四边形等简单的文字目标表达方式的限制,过去的场景文字行检测方法在遇到很长的文字行和不规则形状的文字行时,其检测性能还不够好,极端场景的文字检测还存在不少挑战。为了解决以上问题,本文针对性地设计了一个原创的文字检测器,该检测器包括了一个初级文字检测器、一个迭代修正模块和一个形状表达模块。首先初级文字检测器产生文字的四边形候选框,然后迭代修正模块在候选框的基础上多次修正检测结果来解决长文字行检测不全的问题,最后形状表达模块通过回归文字中心线、文字区域和文字边界偏差来解决形状不规则文字行的检测问题。在实验中,本文提出的文字检测方法在ICDAR2017-RCTW、SCUT-CTW1500、Total-Text、ICDAR2015和ICDAR2017-MLT 5个公开数据集上取得了 state-of-the-art的检测性能。在单尺度测试中,本文方法在包含较多长文字行样本的数据集ICDAR2017-RCTW上超过了此前最好的方法RRD 6.6%的Hmean,在弯曲文字行数据集SCUT-CTW1500上超过此前最好的方法TextSnake 2.8%的Hmean。
其他文献
研究发现,当今许多高等学校校园活动的现状远远不能令人满意,针对此现象,主要研究大学生参与校园活动的影响因素,致力于打造校园精品活动,丰富大学生校园精神文化生活。
移动互联网近年来始终保持高速发展,成为人们工作生活、休闲娱乐等日常生活的重要手段、渠道和场景。互联网巨头和传统媒体纷纷发力移动互联网,以互联网思维推动传统媒体和新
<正>世界卫生组织和联合国儿童基金会发起的"婴幼儿喂养全球战略"中明确提出了婴儿应保证6个月内进行纯母乳喂养[1]。《中国儿童发展纲要(2011-2020)》也明确提出"0~6个月婴
胶质母细胞瘤(glioblastoma,GBM)是中枢神经系统最具侵袭性的恶性肿瘤,预后极差,平均生存时间只有14个月。目前临床的一线治疗方案是手术最大限度切除肿瘤后联合放疗和(或)替
子宫内膜癌(endometrioid endometrial carcinoma,EEC)是女性生殖系统常见的三大恶性肿瘤之一,是发生于子宫内膜的一种上皮来源的恶性肿瘤,近年来其发病率呈逐年上升。根据临
聚氯乙烯(PVC)和聚偏氟乙烯(PVDF)是目前应用最广泛的两种聚合物多孔膜,但是由于其本身的疏水性使其存在通量低及易污染等缺点,科研工作者们利用各种方法对聚合物多孔膜进行
随着全球经济从金融危机的打击中逐渐复苏,公众对企业的关注重点重新从单一的企业的经济业绩向企业对社会做出的整体贡献转移,将之具体化,就是企业履行社会责任的表现。改革
随着深度学习技术的爆发,计算机视觉研究已经发生了极大的变化。作为计算机视觉研究领域的一个重要分支,文字检测和识别同样受到了这一波技术革新浪潮的影响。近年来,该研究
研究背景:肾上腺髓质素(adrenomedullin,AM)属于降钙素基因相关肽(CGRP)家族,是已被证实的参与疼痛形成的神经肽。脊髓背角浅层和DRG(伤害性信息传递的重要部位)中AM和AM受体都有表达。其他实验室和本实验室研究表明,鞘内注射AM能够引起热痛觉过敏和机械性超敏反应,提示AM参与了伤害性信息的传递及痛觉过敏的形成。本研究应用完全弗氏佐剂(CFA)模型,通过鞘内注射AM受体拮抗剂AM
目的:检测脂肪肝患者血清瘦素(LEP)水平,探讨瘦素与暗肪肝患者的血脂、血尿酸及血清铁蛋白(FePr)之间的关系。方法:2002年6月至2004年8月我院62例脂肪肝患者及30例正常对照组患者血