论文部分内容阅读
图像中的文字包含着丰富的语义信息,对于理解图像的内容具有重要意义。有了文字信息的帮助,可以方便地进行图片的分类、索引与检索,并进而设计各类应用。因此,图像文字区域检测已成为近期视觉内容理解的一个重要途径和研究热点之一,具有重要的理论研究价值和实际应用前景。 现有图像文字区域的检测算法往往局限于特定的图像类型,并对字符区域的上下文信息有着较多的先验假设(如颜色一致、语言相关、无干扰元素或噪音等)。但由于在不同类型图像中,文字区域表现的形式不尽相同;且考虑到实际图像中大多可能存在复杂的背景、退化、干扰噪音,加之语言的多样性和字体的多样性,使得从多类广泛应用的图像类型中准确、鲁棒地检测字符区域依然十分困难。 本文以两类典型图像——二值线条工程图及自然场景图中的字符区域检测进行了系统研究,首先着重探讨了退化线条图中的鲁棒、快速的字符检测问题,进而给出了适用于自然场景图像文本检测的扩展算法。论文提出了一种新的基于一致性单元的字符检测方法,该方法从文字笔划特征提取入手,充分利用构成文本的笔划间连通及形态特性来检测文本。由于有关联的笔划单元间具有方向固定、笔划宽度大致相同的特点,可视为构成字符的基本元素,因此本文方法首先定义并识别图像中存在的连续一致的笔划单元。在得到基本单元集合之后,本文算法针对字符的特点进行基本单元的筛选,排除不可能构成字符的元素;然后对于可能的基本笔划单元进行归并,形成候选字符。接下来对于所形成的候选字符,再次通过分析其中包含的基本单元分布特点及其它约束进行作进一步排除,由此得到可信的字符单元集合。最后根据字符的聚集性特征再次进行成串分析,以得到分割结果。 实验结果表明,作为一种有效的字符检测算法,本文方法具有如下贡献: 1.对二值线条工程图,无需先对非字符单元(如直线段、圆弧段、各类曲线)进行跟踪与分析,从而避免了相对复杂的非字符图元的追踪与识别过程。本文所提出的算法可应用于现存的海量工程扫描图像的快速内容检索或索引,并可进一步应用于各种扫描图文档管理系统; 2.在二值线条工程图文本检测研究中,本文方法深入分析与探讨了有图元相交、粘连及噪音等各种复杂退化条件下的鲁棒文本检测算法,弥补了现有算法大多忽略处理各种退化情况的缺陷。此外,本文算法适用于不同的字体和语言文字,并可处理任意基线方向的文字; 3.针对应用日益广泛的自然场景图像,文本进一步探索了上述算法对其中的文本区域的自动检测问题,并给出了算法验证与实验结果。