论文部分内容阅读
自然场景图像中的场景文字包含了重要的语义信息,比如街景图像中街道边广告牌上面的文字,道路指示牌上的指示文字,店面招牌上的店名,均能指示出与此相关的地理位置信息,而书籍封面图像中的标题作者,产品包装图像上的产品名称等则能说明图像中的主体是什么。因此将场景图像中出现的文字抽取出来,将会对场景图像的内容分析、检索和浏览提供有益的帮助,同时能够应用于盲人视觉和机器人视觉等应用。本文的全篇内容主要围绕如何从自然场景图像中提取文字的各个方面和步骤进行介绍。研究工作主要集中于自然场景图像中文字区域的定位,区域的二值化分割,包括一系列概念和算法的描述。从图像中抽取文字信息起初针对的对象是文档扫描图像,后来开始研究视频帧图像中的字幕抽取也越来越多,和上面两类图像相比,自然场景图像中的文字具有分辨率变化大,背景复杂,带有拍摄角度形变的特点,这给自然场景图像中的文字抽取带来很大的困难和挑战。在自然场景文字定位方面,我们提出分层块过滤并利用边缘特征聚类的方法。它在边缘检测的基础上,使用小尺度的区块过滤和大尺度的区域过滤的方法产生候选场景文字区域,在这其中将使用边缘特征聚类的方法将文字区块组合成文字条目区域。在不同尺度上的分层过滤方法能在保持较高查全率的同时大大降低虚警,而利用边缘特征聚类则能有效地将具有语义连贯性的文字区块联合起来构成文字条目区域。对候选的场景文字区域将使用一定的方法矫正拍摄形变,以利于后续的文字区域二值化工作。在自然场景文字区域二值化方面,本文提出两种改进方法:基于文字笔划宽度特征的聚类方法,使用笔划宽度作为主要特征对文字像素和非文字像素进行聚类,聚类效果不错,缺点是迭代次数多,计算速度慢。而基于文字笔划标记图像的融合方法则是大致标出文字笔划所在的区域,和传统的二值化分割方法融合得到最终的结果,计算速度快,并且也利用了文字的笔划特征,和传统的方法达到了很好的互补效果。文中所提出的算法都经过精心设计的实验的检验。实验表明本文算法具有较好的文字区域定位和二值化效果,增强了自然场景图像文字提取工作的实用性。文中所提出的算法已经被应用于实验室开发的互动媒体信息检索系统中,同时也希望本文算法在后续工作中能为实验室机器人视觉做出贡献。