复杂自然场景中文本检测技术的研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:Melissachen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着智能移动终端的普及和互联网的发展,自然场景正在以图片的形式被记录和分享,图像中含有丰富的信息,而其中最主要的是自然场景中文字的信息,这些信息服务于语言翻译、导航、多媒体信息检索等具体的应用。文本检测识别是上述应用实现的关键步骤,其检测的准确程度关系着图像应用的准确性和广泛性。由于自然场景图像的背景复杂,字符多变,容易受到光照,拍摄方位以及拍摄设备等因素的影响,为文本检测带来了许多不确定性。因此,对自然场景的文本检测技术进行研究有着重要的意义。本文对自然场景文本检测的算法进行研究,主要从候选连通区域的提取,候选文本区域的形成以及文本非文本区域的分类这三个方面对算法进行改进。(1)应用最大稳定极值区域进行候选连通区域的提取,为了减少后续工作的时间复杂度和计算量,以及文本分类的正确率,本文在该算法中提出了平滑的方法对嵌套的最大稳定极值区域进行剪枝去冗余;(2)利用笔画宽度变换在候选区域进行筛选,将笔画宽度变换与最大稳定极值相结合,并提出了丢失字符恢复的算法进行多方向文本的检测;(3)在进行文本和非文本区域的分类时,充分考虑AdaBoost与SVM的优缺点,提出了AdaBoost-SVM级联的分类算法。结合深度学习,使用卷积神经网络进行文本检测,为了有效的检测复杂场景下的文本检测,本文对文本候选区域进行比例和尺度的设定,为了在小区域获得较多的特征,将卷积层进行融合。本文在上述几个方面对文本检测算法进行改进,在文本检测常用的数据集ICDAR2013上进行水平方向的检测,在MSAR-TD500上进行多方向的检测,实验结果表明:本文的算法可以检测任意方向的文本,同时在背景复杂、光照不均等因素干扰的图像中均取得较好的效果,显著的提高了文本检测的准确率和召回率。
其他文献
以工作过程为导向的职业教育课程模式对传统的课程内容进行全新的整合、重构,强调理论与实践的一体化。以工作过程为导向改革高职日语专业礼仪课程,创新性地通过数个典型的工
目的应用经颅多普勒超声(TCD)观察以剧烈头痛为突出症状的经前期紧张综合征患者治疗前后的血流动力学改变。方法用TCD检查仪检测患者的颅内主要供血动脉血流速度、频谱形态、
中国加入WTO之后,外资银行业必将与中国银行业争夺有限的资金资源.中国银行业应抓住机遇,通过实施产权融资、结构性融资和存款保险制度等融资策略创新,提升融资能力与市场竞
产品服务化是制造业企业从以提供有形的产品为中心转变到以有形产品为载体、以提供与产品相关服务为核心的价值创造模式。利用文献分析法,从产品与服务之间关联及制造业与服务
本文分析了建立基于公众参与的有机蔬菜安全生产管理与监控系统中用到的主要技术手段,以及系统的主要功能。
目的 探讨儿童甲型H1N1流感的临床特征及疗效。方法 回顾性分析我院2014年1月-2016年11月收治的儿童甲型H1N1流感患者96例,对患儿年龄、实验室检查、临床症状及病程转归进行
用“督导评估指标体系”规范学校管理的行为王益群国家教委制定的《普通中小学校督导评估工作指导纲要》在我县试行已经四年多时间。作为国家教委的联系点和江苏省教委的试点
记述了太行山猕猴掌骨和蹠骨的波动性不对称性(FA)特征.掌骨标本35例(雄8,雌27),蹠骨标本33例(雄8,雌25).选择变量5个,分别是掌骨和蹠骨最大长、中间宽、中间高、中间周长和中间横
紫砂壶作为一种传统艺术,古今往来,不仅深受普通百姓的喜爱,也得到了许多文人雅士的欣赏。综观紫砂壶艺,它不仅有着端庄清丽的迷人风采、气韵生动的造型艺术,也包含着深厚的文化底
混淆矩阵算法是现在国际上比较通用的遥感影像分类精度评价方法,它不同于国内现有的质量评价体系。本文阐述了混淆矩阵算法的原理,并进一步分析了其在生产应用过程中需注意的