论文部分内容阅读
随着基于内容检索技术的发展,人们逐渐意识到包含在彩色图像中的文本具有重要的作用。自动识别这些文本,对高层语义的检索和索引具有重要意义。近年来,光学字符识别(Optical Character Recognition,OCR)技术已经取得广泛应用,可以将大量手写、印刷文档转为数字文档,但传统的OCR技术只能识别分辨率较高,背景简单的文档图像,而一般图像往往带有非文字的复杂背景区域,OCR很难通过版面分析的方法准确找到文本的位置,因此,给识别带来了极大的难度。如果能够采用有效可行的算法准确找到文本的位置,再将文本送与系统识别,就可以将光学字符识别技术的实用性和准确性大大提高,极大地扩展该技术的应用领域。
所谓文本定位,就是从复杂图像中找出文本所在的位置或刚好包围文本的矩形区域,这是文本识别非常关键的一步。文本定位的精确与否,直接决定了整个字符识别系统准确率的高低。如何从含有复杂背景的图像中快速而准确地进行文本定位,具有极其重要的理论和实践价值,已经成为图像处理领域一个热门课题。
本文对彩色图像的预处理过程进行了阐述,对现有的文本定位算法进行了归纳和总结,详细分析了各种算法的优劣。针对复杂彩色图像中文本信息的特点,本文提出了两种从备选图像块中筛选文本块的方法:一种是级联弱分类器法,该方法综合利用了文本块的形状特征、颜色特征、区域特征、字符笔画特征作为筛选的依据;另一种算法则综合利用了小波变换和人工神经网络进行判别。实验结果表明,这两种方法耗时短,准确率高,均可以得到较好的文本定位效果,对文本定位的研究具有一定的借鉴意义。