【摘 要】
:
文本作为自然场景图像中一种常见的媒介,本身包含着丰富的语义信息,对图像中的文本进行准确检测则是提取文本信息的第一步。随着深度学习技术的发展,基于目标检测的文本检测
论文部分内容阅读
文本作为自然场景图像中一种常见的媒介,本身包含着丰富的语义信息,对图像中的文本进行准确检测则是提取文本信息的第一步。随着深度学习技术的发展,基于目标检测的文本检测方法和基于语义分割的文本检测方法逐渐成为目前解决文本检测问题的两种主流方法。相比于目标检测方法基于文本框的限制,语义分割方法通过对图像像素的预测,更适用于图像中任意形状的文本检测。本文在语义分割方法的基础上,针对自然场景中任意形状的文本检测,提出一种基于多尺度特征金字塔融合的文本检测方法,完成的主要工作如下:1.针对自然场景中距离较近文本定位效果不好的问题,本文提出一种金字塔特征增强模型。通过自顶向下和自底向上两条路径,对不同层级特征图中的信息进行补充增强,使网络能够获得更多的语义信息和位置信息,从而更好地进行分割,提高网络的边缘分割精度。2.针对自然场景中大尺度文本行检测结果不准确的问题,本文提出一种多尺度特征融合网络。利用多通道的网络结构从不同尺度的输入图像中提取特征,然后设计了基于特征图深度的融合、以及基于特征图尺度的融合两种方法,对提取到的多尺度特征进行融合,使网络获取更多的全局信息,从而提高网络对图像中大尺度文本行的检测性能。3.针对图像中任意形状文本行的区域特点,本文提出一种基于聚类的文本区域生成算法。基于分割网络的预测结果,以文本中心核为聚类中心,对图像中的文本像素点进行聚类,从而得到不同文本区域的像素点集。不需要受限于图像中文本行的形状,可以得到任意形状的文本行区域。最后,本文在公开的弯曲文本检测数据集CTW-1500和多方向文本检测数据集ICDAR2015上对本文方法有效性进行验证。实验结果表明,相比于原本baseline算法,本文提出的文本检测算法在弯曲文本检测数据集CTW-1500上,将准确率、召回率和F值分别提升了6.3%、27.3%、20.1%;在多方向文本检测数据集ICDAR2015上,将准确率、召回率和F值分别提升了2.8%、1.4%、1.9%。与目前主流的其他文本检测算法在同一数据集上进行比较,本文方法在CTW-1500数据集上取得了最高的准确率85.0%和较高的F值80.5%,从而验证了本文方法针对任意形状文本检测的有效性。
其他文献
植物外源性抗氧化剂可以调节植物生长。富勒烯独特的物理结构、化学性质使其具有调节植物生长的潜能,富勒烯的疏水性却阻碍了其在农业上的应用。本文基于富勒烯氮宾反应,对富勒烯进行化学修饰,引入亲水性支链。为使其衍生物具有更好水溶性,引入支链带两个羟基的叠氮丙二醇小分子。本文首先通过氯代丙二醇与叠氮钠反应生成叠氮丙二醇,利用免溶剂策略制备取得富勒烯基丙二醇衍生物,并对衍生物的生物活性进行测试。研究结果如下:
地铁作为地下工程,在施工过程中不可避免的要受到地下水的影响,因此地下水进行控制成为地铁施工的第一要务。地铁施工中的地下水控制的主要方法大体分为两种,即:降水法、止水
随着互联网的持续发展,在社交平台上进行交友聊天逐渐成为人们日常生活的一部分。用户每天都会产生海量数据,对这些数据信息进行爬取、分析,也是各社交平台中常见的商业行为
森林枯落物层是森林垂直结构中的重要组成部分,对森林水文循环过程产生巨大影响。园林有机地被物是利用树木实木部分,将其破碎,覆盖在城市裸地中起到改良土壤,美化环境的作用。这种材料在城市林业的建设中被广泛运用,对屋顶绿化和海绵城市的建设具有非常重要的意义。森林枯落物层和园林有机地被物层都是与土壤直接接触的垂直结构层,均具有涵养水源、延缓地表径流、增加土壤入渗和防止水土流失等生态水文功能。为了探究这两种地
伴随着进化算法的不断发展,人们的生活得到了不断的改善,在这个信息化的时代,如何利用进化算法去解决人们生活中的问题,协调工业、农业、畜牧业的发展,成为当下很有意义的事情。三江源位于我国青海省南部,属于高海拔地区。由于三江源独特的地理优势,使得该地区拥有着丰富的物种,成为了国家面积最大的自然保护区。在三江源众多的物种资源中,草地资源最为丰富。当地的牧民借助大自然赐予的礼物——草地,大力发展畜牧业,由于
随着经济社会的发展,中国煤炭生产与消费布局陷入困境,中东部资源枯竭,煤炭产业向西部干旱、半干旱地区转移。我国西北干旱、半干旱地区分布着广大的深厚黄土覆盖区,这些地区因煤炭开采导致的地裂缝与水位下降成为制约当地生态可持续发展的重要因素。一般研究认为采煤沉陷是引起煤矿采区地裂缝的主要原因,裂隙发育从顶板沟通表土层,地表径流、潜水沿裂隙渗流,导致水位下降,但是经过多年煤矿防治水经验来看,导水裂隙带高度发
由于海洋平台服役于环境与气候复杂多变的海洋环境中,如果仅对其进行短期的监测是无法分析海洋平台真实的健康状况。只有对海洋平台进行长期、密切的健康监测,得到海洋平台的
20世纪90年代后期,我国住房制度发生根本性的变革,取消了福利分房制度,房地产业在此机遇下发展势头迅猛,房地产市场欣欣向荣。房地产业的极大发展,促进了诸多相关产业的进步
近年来,随着3D传感器功能的愈发强大,3D数据的获取也越来越容易。而3D数据更加接近现实世界维度,能够更加逼真地展示现实世界的方方面面,这也导致了当前VR,AR等3D应用的愈发火爆。如何理解这些3D数据成为了人们的迫切需求。而文字是人类文明的高度凝练和智慧结晶,让人们能够交流思想,感受和想法,精准地描述现实世界,是人类理解世界的主要方式之一。找到文字和3D数据之间的某种仍未发现的内在联系成为了人们
前馈神经网络(Feedforward neural networks,FNNs)是在现代神经科学研究成果的基础上提出的,以模拟生物神经网络在受到外界刺激后作出的交互反应机制为基本原理。建模由数据集