论文部分内容阅读
作为人类思想和情感的一种重要载体,文字在人类生产和生活的各个方面扮演着十分重要的角色。文字是普遍存在的元素,尤其是在现代城市环境中,文字几乎无处不在。比如,海报、标签、名片、车牌、路牌和广告牌等,都包含大量的文字。自然场景中的文字可以传达丰富而准确的高层语义信息,是理解场景内容的关键元素,因此自动文字检测和识别技术在图像搜索、地理定位、人机交互、机器人导航、无人驾驶汽车和工业自动化等诸多领域具有广阔的应用前景。传统的光学字符识别(OCR)仅针对文档图像。文档图像一般通过高精度扫描得到,分辨率高、背景简单,其中的文字大多数情况下字体规则、色彩单一且排列整齐,因此文字分割和识别的难度较小。与之相比,自然场景中文字的检测和识别具有相当大的挑战性:一方面,自然场景中的文字具有多样性,它们可能具有不同的字体、颜色、大小、方向和排列方式,甚至可能属于不同的语言;另一方面,自然场景中的复杂背景以及低分辨率、强光、阴影、噪声、模糊和遮挡等因素,也给文字的检测和识别带来巨大的困难。本文研究与自然图像中文字的检测和识别相关的基本问题,重点探究新颖、有效和鲁棒的文字表达方法和模型,以应对文字检测和识别过程中的各种困难和挑战。具体而言,本文从以下三个方面开展研究:(1)自然场景中的文字可能以任意方向排列,而以往的文字检测算法假设文字以水平方向排列,因此无法处理非水平的文字。提出一种可以从自然图像中发现和定位不同方向、不同尺度文字的检测算法。基于自然场景中文字自身的本质特性,设计两组旋转和尺度不变的特征,并提出一种两层分类结构。实验表明该算法可以检测复杂场景中的任意方向、不同尺度的文字,同时可有效减少虚警。此外,为更好地测试、评估和比较不同的文字检测算法,整理和发布一个包含多方向文字的自然图像数据集并制定一套适用于多方向文字检测的性能评价准则。(2)针对已有的端到端文字识别系统只能适应水平排列文字的弊端,提出一个能够处理任意方向文字的端到端识别系统。不同于之前的系统,该系统将文字检测和识别作为一个整体,在检测和识别过程中共享相同的特征和分类结构;可以定位并且识别自然场景中不同方向排列的文字;为提高文字识别精度,提出一种新的基于字典搜索的纠错策略。整理和发布一个新的包含多方向文字的图像数据集,用于评估端到端文字识别算法。实验表明该系统在标准数据集以及发布的数据集上均取得优异的检测和识别性能。(3)为进一步提高文字识别精度,提出一种全新的文字表达模型,称为多尺度笔画模型。该表达模型由一组多尺度中层视觉元素组成,这些元素通过无监督的方式自动从训练样本中学习得到,可以从不同的粒度刻画文字的结构特征。多尺度笔画模型允许直接从原始图像中估计字符的位置和大小,绕过敏感易错的字符分割过程,同时对文字的字体变化、形变、旋转以及噪声、模糊、局部遮挡等因素相对不敏感,因此可以提高文字识别的精度。测试结果表明,基于多尺度笔画模型的文字识别算法在多个标准数据集上取得目前最高的文字识别精度。