图像和视频中场景文本检测方法研究

来源 :北京科技大学 | 被引量 : 0次 | 上传用户:tianchaoguoshi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
计算机视觉是近年来非常热门的研究领域,其中图像语义分析更是重中之重。研究表明,在有文字的图像中,文字所包含的语义信息占整张图像的70%以上,因此对图像中的文本进行提取和识别是分析图像语义信息的重要组成部分。人们对于印刷文本的提取和识别(OCR)可以说已经研究得非常透彻,但是在自然场景中,文本通常不会以非常标准的形式(白底黑字、标准字体)出现,而是掺杂大量噪声或形变,这使得传统的OCR技术的文本提取和识别效果急剧下降。另一方面,随着近年来网络技术,特别是移动互联技术的发展,人们不再满足于对简单的印刷文本的提取和识别,而是将目光投向更为复杂的自然场景。就目前绝大多数图像文本识别方法而言,对图像中的文本进行检测和定位是必要的,在自然场景图像文本检测这个特定领域,人们提出了许多新奇的方法,但是到目前为止在自然场景多方向文本检测领域仍然存在不少问题,主要包括:第一,字符分割不准确。由于自然场景的复杂性,图像中的字符形态上可能多种多样,存在很多难以检出的字符或文本部件;第二,文本噪声难以滤除。在自然场景中,诸如“门窗”、“砖块”之类的“类文本”区域有很多,字符和文本判别器对于这些区域的辨识能力较弱。第三,文本方向难以确定;自然场景中的文本可能以任何方式排列,同时,中文、日文等字符可能有笔画分离的情况,这些都会对文本的方向检测带来难度。针对这些问题,本文从水平方向文本检测入手,面向多方向文本场景检测进行了一系列关键技术的创新研究。首先,在水平方向文本检测任务中,针对字符检测和文本判别等难点问题,本课题提出了基于多信息融合的字符提取和多分类器集成的文本判别的场景文本检测方法。其中,基于多信息融合的字符提取通过层次型聚类算法对提取的连通域特征进行聚类,然后利用聚类中连通域的整体特征将多个通道的连通域融合,最大限度地保留字符区域。在ICDAR数据集上的实验结果表明,经过融合的字符区域相比原始灰度通道字符级召回率从92%提高到98%。而多分类器集成的文本判别则通过融合多个侧重点不同的文本判别器达到以较高精度对文本候选判别,其中基于CNN滑动窗口的判别器对类文本区域的过滤作用明显。第二,面向多方向文本检测,针对字符聚合和多方向分析问题,提出了基于自适应聚类和多方向文本行构建的多方向场景文本检测方法。其中,提出了一个基于尺度学习框架的自适应聚类算法,并利用这个算法设计出了一个由粗到精的多方向文本行构建算法。将这个尺度学习的方法应用的单链接聚类以及文中提出的二分层次型聚类算法,都得到了较好的结果。在多方向文本行构建的过程中,提出通过依次使用形态特征聚类、方向聚类和截距聚类的方法,确定文本行的方向,该方法在ICDAR15、MSRA-TD500、USTB-SV1K等多个数据库评测,均达到了当时最高水平。在真实的自然场景中,除了上述技术难点以外,对于被遮挡的文本进行定位在单一图像的情况下是难以克服的问题。对于这个问题,本文将研究载体从静态的图像转向动态的视频,以期利用视频中目标的时空连续性尽可能地对这类文本的检出率,同时进一步提高对一般文本的检测效果。所以,本课题的第三项工作是基于视频时空连续性特性和文本二阶特征,提出了基于能量最小化优化算法的视频文本跟踪检测方法。通过加入互斥能量模型,利用目标与目标的相互关系提取文本的二阶特征,增强了模型对相似文本的判别能力,同时利用跟踪信息提高整体的文本检测效果。这个方法在多个公开数据集上验证,MOTA(Multiple Object Tracking Accuracy)值较其他跟踪方法有明显提高,说明该方法在防止目标编号跳变(对不同文本的辨识能力)方面有很好的效果。同时,相比于单纯的检测方法,结合本文跟踪技术的检测系统在不同场景下显示出更强的鲁棒性。
其他文献
随着光纤连接器市场尤其是数据中心的迅猛发展,光纤连接器企业迎来了其重大发展时期,面对激烈的国际竞争格局,产品的同质化,促使光纤连接器企业不断寻找新的增长点来保持其竞
起源于亚洲的禾本科植物薏苡是一种古老而重要的粮食、药用、兼作饲料的经济作物,主要分布于中国,缅甸,印度,日本及东南亚地区。它也是我国栽培面积最大,种植分布最广的药食
随着“一带一路”倡议的深入实施,中欧班列发展遇到了史无前例的契机,在中国与“一带一路”沿线国家的经济和文化交流中承担举足轻重的使命。然而,当前中欧班列处于发展前期存在货源组织困难、运输成本偏高、对客户群体细分不足难以精准把握客户需求等问题,本文在系统分析现有铁路货运产品的基础上,结合中欧班列运营特点,从客户角度出发设计中欧班列货运产品体系,构建多式联运运输方案,为扩大中欧班列货运市场和丰富中欧班列
总结了铁尾矿砂混凝土的研究现状,包括铁尾矿砂掺合料的比例对混凝土工作性能和强度的影响、提高铁尾矿砂混凝土强度的外掺料、铁尾矿砂混凝土基本力学性能、铁尾矿砂混凝土
随着城市中饲养宠物的居民不断增多,但宠物活动区域和公共服务设施却相对缺乏,由此导致了宠物在公园、广场、滨水绿地等公共空间扰民、伤民等一系列的社会问题。为缓解居民与
这些名人公馆美得让人羡慕,让人向往,让人感慨!曾经住在里面的,都是传说中的大人物,高官或者富贾,以及他们的佳人,和一段段神秘往事。对于大多数人来说,今生拥有这种房子的几
德,什么是德?汉语词语里解释为,不违背自然规律去发展社会,提升自己。古人说,"德者,道之用也"。德是顺应道而生的。具体到人类行为上,就表现为对特定规律的遵从。
期刊
Drucker-Prager模型(DP)是隧道工程数值模拟中常用材料模型,随着计算方法的进步,很多有限元软件都开发了Extended Drucker-Prager模型(EDP),以弥补经典模型的不足。本文针对A
项目可行性研究自二十世纪八十年代被引入中国后,为我国经济发展做出了巨大的贡献。但由于我国很多企业对项目可行性研究简单应付、流于形式,造成大量项目盲目上马,导致国有