论文部分内容阅读
本文介绍了一个实用性较强的专用OCR系统——邮政信封识别系统。版面分析与字符切分是OCR系统的两个重要组成部分,前者是将文档图象按一定特征分割成文本、图象、图形或表格等版面基元,各个基元在后续处理中将采用不同处理方法。后者实质是把一文本行图象切分成包括单个独立、完整字符的多个区域,文本切分正确率直接影响到识别率。 在系统中,首先对信封图象进行了预处理并给出了相应的二值化、噪声滤除方法,提出一种基于HHT的倾斜校正的方法。然后在传统版面分析技术的基础上针对信封版面的特点进行了版面分析。对得到的地址块提出了一种利用概率型Viterbi算法进行字符切分的方法,最后将切分好的单个字符进行识别,并与地址数据库进行匹配,从而得到地址,进而实现了信封地址的自动识别。 本文提出的算法已经集成于北京汉王科技有限公司的邮政信封自动识别系统中。