论文部分内容阅读
随着计算机技术和多媒体技术的飞速发展,图像逐渐成为一种最为普遍的数字存储介质,图像内容的识别和分类也越来越受到人们的重视。许多图像中含有丰富的文字信息,这些文字信息在一定程度上反映了图像的主要内容,是理解图像的重要线索。自动提取和识别图像中的文字对于图像的语义理解、检索等领域都具有非常重要的意义。然而,现实生活中的图像往往包含复杂的图像背景,例如车牌号码、商店名字、商品标签等,如果运用成熟的文字识别技术OCR(Optical Character Recognition)系统直接对图像进行文字识别处理,很难得到理想效果。只有借助其它工具在图像内进行文字定位,并转换生成二值图像,OCR系统才能够进行相对准确的文字识别。因此,图像中文字的检测与定位成为制约文字提取技术发展的瓶颈,也是文字提取的关键和核心。从复杂的图像背景中准确检测定位文字信息,成为一项重要而有意义的研究工作。在信息处理领域,多尺度几何分析(Multiscale Geometric Analysis, MGA),是继小波分析后又一重大研究成果,并随着研究的深入和应用的扩展逐渐在图像处理的各个领域发挥越来越重要的作用。本文以复杂背景图像为主要研究对象,重点讨论利用非下采样Contourlet变换(Nonsubsampled Contourlet Transform, NSCT)和离散Shearlet变换(Discrete Shearlet Transform)等多尺度几何分析工具进行图像中文字定位的有效方法研究,具体所做工作如下:1.介绍了图像中文字定位方法的发展历程和研究现状,分析了图像中文字定位的基本原理和流程,分类总结了文字定位的几种常用方法,讨论了它们的优、缺点,引出基于图像多尺度几何分析与其它方法相结合的文字定位方法研究。2.介绍了图像的最优稀疏表示和多尺度几何分析的概念、原理以及性能评判标准,讲述了多尺度几何分析的发展,总结分析了几种经典多尺度几何分析工具,如脊波(Ridgelet)变换、Curvelet变换、Contourlet变换和剪切波(Shearlet)变换等的理论框架、方法实现和主要性质、性能。3.提出了一种基于非下采样Contourlet变换(NSCT)的文字定位算法。算法首先利用NSCT对图像进行多尺度、多方向分解,对分解得到的高频子带进行能量变换,使得子带图像中的文字信息更加突出;再通过对子带进行边缘检测滤除图像背景,捕获文字边缘特征,而形态学知识的运用则能够将这些零散边缘成功转化为连通区域;然后对相同尺度子带进行“与”操作,得到候选文字区域,对不同尺度下得到的候选文字区域进行投票判定,得到唯一的文字区域,这样既充分利用图像文字方向性信息丰富的特点,又提高了算法的准确率和鲁棒性;最后通过启发性知识进行区域筛选得到最终文字定位结果。论文引用矩形匹配的方法对定位效果进行评估,即选用准确率、召回率、以及算法运行时间等参数对算法的优劣和可行性进行分析。4.为了提高算法的运行效率,提出了一种基于Shearlet变换的文字定位算法。由于离散Shearlet变换具有结构简单、算法复杂度低和方向灵活等优点,算法选用具有平移不变性的离散Shearlet变换对图像进行多尺度、多方向分解,能够快速得到边缘信息丰富的高频子带。同时,算法利用动态阈值分析的方法取代简单的边缘检测方法来实现子带图像的二值化处理,能够更加有效地对子带中非文字信息进行滤除,提高了文字定位的准确率和召回率。实验仿真表明,该算法具有优异的文字定位效果。