论文部分内容阅读
表格文档是一种简明、规范的文档形式,它非常便于填写和处理,在人们的日常生活和工作中得到了较为广泛的应用。伴随着信息化时代的到来,文档电子化已经成为未来发展的必然趋势。相应地,表格文档自动处理系统得到了国内外学者的广泛关注。一般地,一个表格文档自动处理系统分为两大模块:表格文档分类和信息提取。输入表格文档的类别一旦确定,接下来就可以借助在模板库中其对应的模板表格文档知识实现关键信息的提取,所以说表格文档分类是后续表格文档信息能否正确提取的关键。本文主要对表格文档图像的分析方法进行了初步研究。首先,在文档图像预处理部分,本文提出了一种基于Haar-like特征的文档图像倾斜估计方法;同时,在倾角检测过程中,为了提高处理速度,我们提出了一种由粗到精的倾角搜索策略。通过与现有的比较出色的文档倾斜校正算法相比,该方法对通用的印刷类文档有较高的倾斜估计精度,而且算法性能受文档的内容、语言和版面结构变化影响较小。另外,本文对传统的基于固定模板的表格分类系统进行了改进,构建了一个基于可变模板的表格文档分类原型系统。该系统一方面可以有效地应对固定模板文档分类面临的各种实际问题,像文档图像的平移、倾斜和尺度变化等等。对于这些位置变动,我们建立了一个从固定模板到变动模板的变换模型。通过基于Hough投票的策略,去估计模型参数,利用估计的参数值对输入的变动模板表格文档进行归一化;另一方面,在固定表格模板的基础上,允许在原模板的基础上某几个单元格大小可变,单元格数目可变,以提高系统在处理实际表格文档分类问题时的灵活性和鲁棒性。针对可变模板的定义,我们提出利用动态规划的方法,首先找到对应表格内单元格的最佳匹配,然后计算匹配的单元格的相似度,将所有单元格间的相似度进行累加作为两表格文档最终的相似度。最后选取与输入表格文档具有最大相似度的模板表格,将其类型作为输入表格文档的类别予以输出。实验结果表明,我们构建的表格分类系统对固定模板和可变模板的表格文档均具有良好的分类性能。