表格文档图像分析方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:rlhRLH
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格文档是一种简明、规范的文档形式,它非常便于填写和处理,在人们的日常生活和工作中得到了较为广泛的应用。伴随着信息化时代的到来,文档电子化已经成为未来发展的必然趋势。相应地,表格文档自动处理系统得到了国内外学者的广泛关注。一般地,一个表格文档自动处理系统分为两大模块:表格文档分类和信息提取。输入表格文档的类别一旦确定,接下来就可以借助在模板库中其对应的模板表格文档知识实现关键信息的提取,所以说表格文档分类是后续表格文档信息能否正确提取的关键。本文主要对表格文档图像的分析方法进行了初步研究。首先,在文档图像预处理部分,本文提出了一种基于Haar-like特征的文档图像倾斜估计方法;同时,在倾角检测过程中,为了提高处理速度,我们提出了一种由粗到精的倾角搜索策略。通过与现有的比较出色的文档倾斜校正算法相比,该方法对通用的印刷类文档有较高的倾斜估计精度,而且算法性能受文档的内容、语言和版面结构变化影响较小。另外,本文对传统的基于固定模板的表格分类系统进行了改进,构建了一个基于可变模板的表格文档分类原型系统。该系统一方面可以有效地应对固定模板文档分类面临的各种实际问题,像文档图像的平移、倾斜和尺度变化等等。对于这些位置变动,我们建立了一个从固定模板到变动模板的变换模型。通过基于Hough投票的策略,去估计模型参数,利用估计的参数值对输入的变动模板表格文档进行归一化;另一方面,在固定表格模板的基础上,允许在原模板的基础上某几个单元格大小可变,单元格数目可变,以提高系统在处理实际表格文档分类问题时的灵活性和鲁棒性。针对可变模板的定义,我们提出利用动态规划的方法,首先找到对应表格内单元格的最佳匹配,然后计算匹配的单元格的相似度,将所有单元格间的相似度进行累加作为两表格文档最终的相似度。最后选取与输入表格文档具有最大相似度的模板表格,将其类型作为输入表格文档的类别予以输出。实验结果表明,我们构建的表格分类系统对固定模板和可变模板的表格文档均具有良好的分类性能。
其他文献
随着信息技术发展步入后PC时代,嵌入式系统设计,尤其是以涉及Internet应用的设计,正成为当前科技发展的一大热点。在本文中,论述了嵌入式系统设计所涉及到的各个方面。同时,
本文提出一种应用数据挖掘提出的智能型主机检测系统,该系统的特点和创新性主要体现在以下几个方面。首先,比较详细地分析了各类日志格式、存放位置等,该系统支持多种操作系统
由于目前的蜂窝移动通信系统对于网络基础设施的要求比较高,限制了此类系统不能有效的应用于一些没有网络基础设施,但又有临时通信要求的场合,比如煤矿的施工坑道内、救灾现
网络QoS的研究大致包括体系结构、协议标准和机制算法这三方面的内容。因此,本文的前二章首先从IP网QoS的体系结构入手,介绍了IETF为了满足互联网上各种业务对QoS的需求而提出
本文首先对感知音频编码作了一下介绍,然后对现有感知编码器作了个回顾,并着重介绍了MPEG-AAC编码器的构成,对其中各个模块进行了介绍。 其次,由于标准里的参考算法的实现复杂
目标跟踪是计算机视觉领域的重要研究问题,它可以广泛应用在公共场所监控、视频检索、人机交互、机器人智能、数码娱乐等多个领域。然而,如何实现持续鲁棒实时的目标跟踪,依然是
文章首先叙述了目前毫米波在人体医学上治疗及诊断技术的发展现状,从理论上分析了人体组织发生病变后,其组织本身性质发生变化导致电磁波辐射特性的改变,利用毫米波被动扫描接收