论文部分内容阅读
随着信息时代的来临,数字信息已经成为人类最重要的资源。大量的信息记录在纸质文档上,而纸质文档具有不便于长期保存、检索和数据挖掘的缺点。因此,纸质文档的电子化、数字化处理已成发展趋势。采用传统的手工录入的方法实现大量纸质文档电子化是不现实的。随着OCR(Optical Character Recognition)技术不断发展与成熟,人们开始利用计算机对文档进行自动处理,提高了文档处理的效率、节约了人力和物力。文档图像自动处理越来越受到人们的重视,并开始应用到日常生活中。 文档图像自动处理主要包括文档图像的版面理解(Document Layout Understanding)和OCR识别。OCR识别研究起步较早,已经达到较为实用的程度。而文档图像的版面理解直到90年代才得到人们的重视,在这方面研究的不足已成为制约文档处理推广应用的主要因素。本文在收集和分析了大量近年来国内外文档图像处理方面的研究报告、学术论文等专业资料,对文档图像版面理解所涉及的若干理论问题进行了探讨;着重对文档图像的倾斜估计、表格文档图像的版面理解和汉字的字体识别(Optical Font Recognition OFR)进行了研究。主要工作包括: 1.对文档图像的预处理进行了研究。文档图像会产生一定的歪斜,文档版面理解和OCR识别算法对文档的倾斜非常敏感,文档图像的倾斜校正十分重要。针对种类繁多、版面复杂的文档,本文提出了基于版面内容的文档图像倾斜校正方法,通过小波变换、游长平滑(Run Length Smoothing)和细化处理,提取文档中的水平和垂直的线条和文字行,针对不同的文档版面采用相应的策略进行倾斜估计。并采用误差合成的方法减小倾斜估计的误差。实验表明该方法具有精度高和适应性强的特点,具有实用价值。 2.采用表格版面的背景信息来定位表格的几何结构是目前表格处理的研究热点。本文提出了基于最佳坐标系的表格结构提取方法,利用分布在表格中的水平和垂直线条作为定位标记,用这些定位标记组成多个定位坐标系,可将一幅表格划分为多个小区域,每个坐标系定位其附近的一个小区域。由于每个坐标系定位的区域较小,所以有效的消除了表格图像畸变的影响。在图像噪声较多,有的定位标记不能正确提取时,仅会使得定位坐标系的数目减小,有的坐标系定位的区域稍大一些,同样可以提取出表格的几何结构,该方法具有很强的抗干扰能力。 3.表格文档处理前要进行表格的学习,获取表格文档版面结构的先验知识。由于表格文档中需要处理的信息大多数是人工填写的字符,本文提出了基于印刷体与手写体识别的表格几何结构自动学习方法。通过手写体与印刷体识别,自动确定手写体区域的位置和大小。采用监督聚类(Supervised Claster)与支持向量机(SVM)相结合的识别方法(SCSVM算法)用于手写体与印刷体识别。本文对聚类识别方法进行了改进,建 重庆大学博士学位论文立了聚类识别的拒识规则。充分利用了聚类识别速度快和支持向量机识别精度高的特点。提出的SCSVM算法对于其它两类识别问题也具有普遍意义。 4.对字体识别的方法进行了研究。不同字体的汉字笔段(横、竖、撇、捺)具有大致相同的形状,不同的地方在于笔段细节上的差异。小波包在空间和频域上均有较好的局部性,本文将小波包变换提取的纹理特征用于字体识别。提出了基于BP神经网络和子空间分类器串联的综合集成识别方法。BP网络的学习速度很慢,而且需要经验来调整学习参数,但它具有识别能力强、识别精度高的特点;而子空间分类器具有学习速度快、无需人工千预的特点。在识别过程中,可以将识别系统拒识的模式样本收集起来,调用子空间识别器的学习程序进行再学习。这样,该综合集成系统就具有了再学习能力。在实际使用中,通过学习将会进一步提高字体识别精度。