论文部分内容阅读
自然场景下的文本定位一直以来都是机器视觉领域的一个重要研究课题,在基于内容的图像检索、机器人导航、工业自动化和智能交通系统等领域都扮演着重要的角色。自然场景图像的文本定位算法有两个主要阶段:字符候选区域选取和字符分类。在字符候选区域选取阶段,传统算法一般采用级联过滤器的方式对候选区域进行筛选,文本召回率较低;在字符分类阶段,目前大多数算法采用有监督的方法利用数据库训练分类器。此类方法存在两个主要缺点:制作数据库代价昂贵、算法泛化性较差。本文通过研究分析场景文本定位的复杂性,在传统文本定位算法基础上进一步改进文本定位算法的流程与结构,最终提出一种无监督的文本定位算法,提高了文本定位算法的泛化性。本文的主要研究内容和成果如下:(1)分析了当前文本定位算法的研究现状,总结了当前在文本定位算法研究过程中所面临的研究难点。(2)在图像预处理阶段,本文首先通过简单线性迭代聚类(Simple Linear Iterative Clustering,SLIC)的方法对图像进行超像素分割,生成大小和分布都相对均匀的初级超像素。为了使超像素分割更加符合字符边缘,本文使用基于密度的聚类方法(DensityBased Spatial Clustering of Applications with Noise,DBSCAN)对初级超像素进行聚类,生成特征判别性更强、数量更少的高级超像素,并在接下来以高级超像素为单位对图片进行操作。以超像素为单位的文本定位算法,使得图片中所有的区域都能被分类,提高了文本定位的召回率。对初级超像素进行了聚类减少了候选区域的数量、增强了每个候选区域特征的判别性,降低了后期分类的难度和复杂度。(3)在字符候选区域阶段,首先为了解决一般显著性检测无差别检测无法突出文本区域的问题,本文提出文本显著性检测方法对文本进行有针对的检测。其次,为了解决最大稳定极值区域(Maximal Stable Extremal Region,MSER)召回率低和显著图准确率低的问题,本文提出将MSER和文本显著性检测结合的方法。MSER针对局部字符有较好的识别效果,而显著性检测则对文本目标区域整体的检测与定位十分有效。本文分析MSER和显著性检测之间的互补特性,并将上述两种方法有机结合,生成比MSER图和显著图置信度更高的文本图和非文本图。这两幅图为后续提取文本样本提供了重要的参考依据,所以也称为样本参考图。(4)在训练字符分类器阶段,为了解决传统有监督算法对数据库的依赖,本文提出文本样本选取模型。该模型利用样本参考图提取文本样本对分类器进行训练,达到无监督学习的目的。在样本提取时,该模型首先利用双阈值机制将所有超像素分为强文本、弱文本和非文本三类。与传统的单阈值二分类不同,本文的双阈值机制给文本分类提供了一个缓冲区域。双阈值机制将不能准确判断出属于文本还是非文本的超像素都分进弱文本类。因此,本文中的强文本、非文本比传统单阈值分类产生的文本、非文本拥有更高的分类准确性。本文将属于强文本和非文本的超像素分别视为文本正样本和负样本,同时利用正负样本的信息对多核增强分类器进行训练。属于弱文本的超像素将由训练好的多核增强分类器进行二次分类。最后本文通过大量的定性和定量实验,证明了本文提出的无监督文本定位算法能够更好地应对自然场景下复杂的混合文本定位任务。