【摘 要】
:
场景图像中的文字所表达的直接含义对于理解场景内容尤为关键,越来越多的智能应用都使用到场景中的文字信息。但受不同字体、任意排列方向以及复杂背景、光照等因素影响,现有的文本检测方法都具有很多局限性。相比传统机器学习算法,深度学习算法能够学习文本的深度特征,具有更加出色的性能。本文结合分段链接的思想并分别采用位置回归与语义分割的方法设计实现了以下两个文本检测模型:(1)基于特征层融合的表征增强模型。分段
论文部分内容阅读
场景图像中的文字所表达的直接含义对于理解场景内容尤为关键,越来越多的智能应用都使用到场景中的文字信息。但受不同字体、任意排列方向以及复杂背景、光照等因素影响,现有的文本检测方法都具有很多局限性。相比传统机器学习算法,深度学习算法能够学习文本的深度特征,具有更加出色的性能。本文结合分段链接的思想并分别采用位置回归与语义分割的方法设计实现了以下两个文本检测模型:(1)基于特征层融合的表征增强模型。分段链接模型的分层结构包含文本的语义信息不足导致对小文本检测效果比较差,通过加入特征层融合结构解决了该问题。首先使用转置卷积对特征层上采样然后按照自后向前的顺序进行逐层融合。融合特征层既保留了高分辨率的细节特征又加入了强化的全局特征,可以为定位文本提供更准确的位置与边界信息。利用融合特征层检测的F值相比分段链接模型在数据集ICDAR2015,MSRA-TD500分别提高了 1.9%,1.6%。针对加入特征层融合结构后网络加深造成误差传递困难,可能导致网络性能降低的问题,设计了基于残差网络的预测结构。利用跳跃连接结构降低了网络的训练难度,在ICDAR 2015仅用50%的迭代次数即可达到原先的训练损失,并且F值提高1.0%。分段链接模型使用单个矩形定位弯曲文本存在较大误差,因此提出基于旋转角度的片段分组策略。通过将弯曲文本进行分段表示并使用单个矩形对各段文本分别标定有效降低了定位误差。(2)基于语义分割的候选文本过滤模型。针对表征增强模型存在较多背景误检的问题,设计了语义分割结构。利用全卷积神经网络(FCN)获得文本显著图并使用连通分量分析提取有效文本区域,通过过滤候选框内文本区域占比低于阚值的文本有效消除了部分误检,在ICDAR 2015的准确率提高了 5.0%。针对训练过程中语义分割损失向大文本倾斜,导致对小文本判别准确性比较差的问题,设计了文本平衡策略。通过为每个文本实例分配相同的权重平衡了模型对不同尺寸的文本的正确分类性能,增强了模型对小文本的判别能力,在MSRA-TD500的F值提高了 1.0%。对比最新算法在不同数据集的表现,候选文本过滤模型在ICDAR 2013的F值比借助实例分割检测场景文本算法(PixelLink)提高了1 1%。最后结合特征层融合与语义分割实现了 Web端的场景文本检测系统,该系统支持单词和文本行两种定位粒度,可以对部分现实场景中的文本实现准确定位。
其他文献
结核病是严重影响人类和动物健康的慢性消耗性传染病,结核分枝杆菌和牛分枝杆菌是引起结核病的主要病原菌。艾滋病的广泛流行、国家和个人对卫生保护和知识上的匮乏,使结核病
现实生活中,很多应用方面的问题都可以用非光滑函数抽象化表达,比如图像的压缩传送、信号处理、矩阵的分解、稀疏信号恢复等等。很多问题都可以归结为在实数空间上有限个函数
“棋”题材中国画作品的意蕴,关注“棋”题材中国画作品本身,以其为探讨对象,探求具体作品画面中的意蕴逻辑。“意蕴”既是研究的探讨内容,又有一定的学术基础,对解读和研究相关作品具有重要意义。论题所涉及的“意蕴”,寓有四层含义:一、寓于中国画作品笔墨中的意蕴;二、包含在中国画作品形式构成中的意蕴;三、中国画作品中的物象、事件、情节等的指称含义和表现意义;四、中国画作品的文化意义。这四层“意蕴”的话域逻辑
我国设施作物生产中土壤营养元素失衡,土壤呈现酸化趋势是一个较为严重的问题。土壤酸化会增加可溶性铝的含量,抑制植物正常生长和损害其生理功能。植物体内合成的铝激活苹果
金属腐蚀所造成的事故与经济损失十分严重,而传统树脂基有机涂层体系尽管具备耐侵蚀能力强、体积稳定、环境友好、易于操作等优点,但也同时存在力学强度低、易于老化等性能缺陷。石墨烯是一种由碳原子以sp2杂化轨道组成蜂巢状晶格的二维碳纳米材料,由于其独特的片层状结构和优异性能,适合用作有机防腐涂料的改性组分。为取得一种既简单方便又节省成本的高性能防腐涂层及其制备方法,本文参考金属基体表面的常规涂层工艺,通过
背景与目的目前,人工髋关节置换手术是骨科常规手术,在全世界范围内大量开展,可以为患者解除痛苦,改善生活质量,据统计,全世界每年有数百万例人工髋关节置换,且大约以每年5%的比率逐渐增加。同时,髋关节置换也存在一些术后并发症,严重者需进行髋关节假体的翻修,翻修手术给患者带来巨大痛苦和经济负担,降低了患者的生活质量。而导致髋关节翻修最常见的病因为假体无菌性松动,分析其发生松动的原因,进而降低置换手术后假
供销社作为为农服务的合作经济组织,在我国发展的不同阶段,为推进农业、农村、农民的发展做出了巨大贡献。但受到国家经济制度及政策变迁的影响,加之自身治理机制的老化,自上世纪80年代以来,供销社的发展受到了冲击,其为农服务功能逐渐削弱,大多数人认为供销社已不复存在,其定位和作用也受到了质疑。因此,为解决供销社长期发展中积累的问题,发挥它在解决“三农”问题中的特殊作用,2015年,中共中央、国务院提出了深
乳腺癌由于其高异质性而被分为不同的亚型标志着乳腺癌治疗进入精准医疗时代。针对大部分的乳腺癌亚型,临床上都有相应的治疗手段,如Luminal亚型乳腺癌通常采用内分泌治疗,HER2过表达亚型乳腺癌采用靶向药物治疗,然而对于三阴性乳腺癌,因其缺少有效靶点,导致治疗手段有限,患者易复发且预后差。目前,学者试图通过新型治疗手段对三阴性乳腺进行治疗研究,但收效甚微。因此本研究借助体细胞重编程概念提出三阴性乳腺
交通运输业是旅游业发展的基础支撑,认识和探讨交通运输业对旅游业发展的机制和规律,对优化区域旅游交通网络布局,合理配置旅游资源具有重大意义。本文以景区可达性对旅游流
结直肠癌(colorectal cancer,CRC)是全球范围内常见的消化道恶性肿瘤之一。近年来的研究表明CRC的发生发展与肿瘤免疫与代谢重编程密切相关。我们前期研究CRC免疫逃逸机制的过程中,通过TCGA数据库分析发现B7-H3可能影响谷胱甘肽代谢通路中异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH1)的表达,B7-H3为B7/CD28免疫球蛋白超家族成员,IDH1参