论文部分内容阅读
计算机视觉是近年来非常热门的研究领域,其中图像语义分析更是重中之重。研究表明,在有文字的图像中,文字所包含的语义信息占整张图像的70%以上,因此对图像中的文本进行提取和识别是分析图像语义信息的重要组成部分。人们对于印刷文本的提取和识别(OCR)可以说已经研究得非常透彻,但是在自然场景中,文本通常不会以非常标准的形式(白底黑字、标准字体)出现,而是掺杂大量噪声或形变,这使得传统的OCR技术的文本提取和识别效果急剧下降。另一方面,随着近年来网络技术,特别是移动互联技术的发展,人们不再满足于对简单的印刷文本的提取和识别,而是将目光投向更为复杂的自然场景。就目前绝大多数图像文本识别方法而言,对图像中的文本进行检测和定位是必要的,在自然场景图像文本检测这个特定领域,人们提出了许多新奇的方法,但是到目前为止在自然场景多方向文本检测领域仍然存在不少问题,主要包括:第一,字符分割不准确。由于自然场景的复杂性,图像中的字符形态上可能多种多样,存在很多难以检出的字符或文本部件;第二,文本噪声难以滤除。在自然场景中,诸如“门窗”、“砖块”之类的“类文本”区域有很多,字符和文本判别器对于这些区域的辨识能力较弱。第三,文本方向难以确定;自然场景中的文本可能以任何方式排列,同时,中文、日文等字符可能有笔画分离的情况,这些都会对文本的方向检测带来难度。针对这些问题,本文从水平方向文本检测入手,面向多方向文本场景检测进行了一系列关键技术的创新研究。首先,在水平方向文本检测任务中,针对字符检测和文本判别等难点问题,本课题提出了基于多信息融合的字符提取和多分类器集成的文本判别的场景文本检测方法。其中,基于多信息融合的字符提取通过层次型聚类算法对提取的连通域特征进行聚类,然后利用聚类中连通域的整体特征将多个通道的连通域融合,最大限度地保留字符区域。在ICDAR数据集上的实验结果表明,经过融合的字符区域相比原始灰度通道字符级召回率从92%提高到98%。而多分类器集成的文本判别则通过融合多个侧重点不同的文本判别器达到以较高精度对文本候选判别,其中基于CNN滑动窗口的判别器对类文本区域的过滤作用明显。第二,面向多方向文本检测,针对字符聚合和多方向分析问题,提出了基于自适应聚类和多方向文本行构建的多方向场景文本检测方法。其中,提出了一个基于尺度学习框架的自适应聚类算法,并利用这个算法设计出了一个由粗到精的多方向文本行构建算法。将这个尺度学习的方法应用的单链接聚类以及文中提出的二分层次型聚类算法,都得到了较好的结果。在多方向文本行构建的过程中,提出通过依次使用形态特征聚类、方向聚类和截距聚类的方法,确定文本行的方向,该方法在ICDAR15、MSRA-TD500、USTB-SV1K等多个数据库评测,均达到了当时最高水平。在真实的自然场景中,除了上述技术难点以外,对于被遮挡的文本进行定位在单一图像的情况下是难以克服的问题。对于这个问题,本文将研究载体从静态的图像转向动态的视频,以期利用视频中目标的时空连续性尽可能地对这类文本的检出率,同时进一步提高对一般文本的检测效果。所以,本课题的第三项工作是基于视频时空连续性特性和文本二阶特征,提出了基于能量最小化优化算法的视频文本跟踪检测方法。通过加入互斥能量模型,利用目标与目标的相互关系提取文本的二阶特征,增强了模型对相似文本的判别能力,同时利用跟踪信息提高整体的文本检测效果。这个方法在多个公开数据集上验证,MOTA(Multiple Object Tracking Accuracy)值较其他跟踪方法有明显提高,说明该方法在防止目标编号跳变(对不同文本的辨识能力)方面有很好的效果。同时,相比于单纯的检测方法,结合本文跟踪技术的检测系统在不同场景下显示出更强的鲁棒性。