论文部分内容阅读
随着信息化时代的到来,相互交流的信息内容越来越丰富,一个中文信息文档中不仅会含有中文、英文、各种各样的公式以及表格和图形图像等内容。因此,快速而准确的将信息中各种内容输入到计算机是信息处理的一个关键问题。中文文档识别系统就是为了实现信息的识别输入以及转换信息文档格式而设计出的产物。而目前的识别系统并不能实现公式的识别输入,设计一种含有公式识别功能的中文文档识别系统,对信息文档的处理有着重要的实用价值和理论意义。本课题在已有的公式识别印刷体中文文档识别系统基础上,对该系统进行了功能上的完善和补充。主要工作如下:首先,对扫描得到原始文档图像进行预处理。在进行图像预处理过程中的二值化时,我们做了基于直方图谷点门限分割法和基于Ostu算法的详细的分析的和比较,最终由于Ostu算法的效果和运算速度较优,在此应用的是Ostu算法。其次,待识别文档被扫描成图像的过程中不可避免地会出现一定的倾斜。本文针对表格文档图像应用了基于游程的倾斜表格图像的检测和反变换的方法进行旋转,实现了对表格文档图像的倾斜角检测及校正。对于角度较小(-5°-5°)的情况,运用上述方法能达到快速倾斜校正的目的,取得更好的效果。然后,是对表格的检测和提取。在这里应用的是基于数学形态学变换的表格检测和提取算法,并对提取的表格线进行细化和直线拟合最终实现了对表格的识别。通过实验得出本文采用的方法对表格的检测和提取的效果比较理想。最后,是汉字识别的部分,采用一种多特征提取并结合多分类器集成的方法对汉字的字符识别,在对汉字进行细化和归一化的基础上,并把一级汉字字库扩展为二级汉字模板字库。本文主要针对比较正式、规范的书籍、报刊和杂志的图像进行采集和识别。所研究的主要内容是在以往同课题组同学的基础上对印刷体中文文档识别系统的功能进行完善。重点是实现了对表格的检测和提取,并扩充了相应的汉字库。与成熟的OCR技术相比,解决了无法实现自动处理印刷体文档中的表格识别问题,是含有识别公式技术的印刷体文档识别系统,它提高了原始文档的利用率,并方便了公式的录用、查询等,对科技的发展和传播有深远意义。