论文部分内容阅读
随着信息时代的来临,数字信息己经成为人类最重要的资源。大量的信息记录在纸质文档上,而纸质文档具有不便于长期保存、检索和数据挖掘的缺点。因此,纸质文档的电子化、数字化处理己成发展趋势。采用传统的手工录入的方法实现大量纸质文档电子化是不现实的。随着OCR(Optical Character Recognition)技术不断发展与成熟,人们开始利用计算机对文档进行自动处理,提高了文档处理的效率、节约了人力和物力。文档图像自动处理越来越受到人们的重视,并开始应用到日常生活中。 文档图像自动处理主要包括文档图像的版面理解(Document Layout Understanding)和OCR识别。OCR识别研究起步较早,已经达到较为实用的程度。而文档图像的版面理解直到90年代才得到人们的重视,在这方面研究的不足己成为制约文档处理推广应用的主要因素。本文在收集和分析了大量近年来国内外文档图像处理方面的研究报告、学术论文等专业资料,对文档图像版面理解所涉及的若干理论问题进行了探讨;着重对文档图像的倾斜估计、表格文档图像的版面理解进行了研究。主要工作包括: 在自动办公文档业务中,文档图像处理已经逐渐成为关键的技术。文档的自动处理是OCR(Optical Character Recognition)系统的重要组成部分。在扫描的过程中由于操作的原因,可能会使文档图像发生倾斜。这种倾斜的图像会对后期的版面分析、版面理解、字符分割和字符识别产生不利影响。因此,在实用的OCR系统中检测和纠正倾斜的文档图像是关键的环节和技术。本文应用从二值文档图像萃取连通体为倾斜矫正和分割识别提供信息的方法。同时还提出了一种新的快速、准确的倾斜矫正的算法。实验表明此方法适合各种版面。 版面分析是文档数字化中的关键问题。本文将版面分折算法分为两类:基