论文部分内容阅读
表单是日常生活中常见的文件,比如银行填写的存款单,邮政汇款单,政府报表,问卷调查等。处理这些表单,主要依靠人手工输入表单中的用户填写项,然后再进行后续的统计,分析等步骤。由于人为因素的加入,使表单结构的提取成为了表单处理过程中的瓶颈。本文的主要研究工作是分析表单组织结构,包括物理结构和逻辑结构,实现表单结构的自动提取。 表单从其外观上看是由单元格组成的,这些单元格之间的逻辑约束关系是由其相对位置关系决定的,因此通过识别表单物理结构,分析其逻辑约束关系,再结合文字识别软件,达到表单自动处理的目的,这也是表单分析的两个重点研究方向。 物理结构识别的主要操作是利用表单物理特性识别得到单元格之间的绝对位置。表单与普通文本文件相比,它的物理特点在于它是由水平和竖直的线框相交而得到的矩形单元格组成,因此可以通过识别线框或者它们相交形成的直角来得到物理结构。因为识别的输入是扫描后得到的表单图像,所以识别算法存在的主要问题在于,扫描后得到的表单图像质量会下降,如表单线框不连续。因此,如何提高识别效率和适应性成为物理结构识别的难点。 对于逻辑结构分析,可以从两方面入手。一是通过分析表单物理结构,得到其整体树形组成方法,它主要探讨的是单个单元格和表单整体之间的关系,而忽略了单元格之间的语义约束关系。另一种方法是通过对单元格进行分类,分析其相对位置关系,采用基于规则的方法得到单元格之间的约束关系。因为其使用了基于规则的方法,从而具有很好的可扩展性,并且提取了单元格之间的语义约束。 本文针对表单文件的物理特性,优化了识别物理结构的算法,主要有倾斜校正算法,表单线框识别算法和矢量化算法。针对扫描到计算机中的表单图像可能会有倾斜,需要首先进行倾斜校正。本文的研究对象是普通表单,内容可以包含表格、图像等,文中提出了一种时间复杂度较低、适应性较强的校正表单倾斜的算法,针对扫描可能引起的多种不利因素,如因为打印或扫描引起的表单中线框断裂、线框不光滑以及人为因素引起的如表单线框和手写字体的交叉等不利因素的影响,提出了新的表单线框识别的算法,在保证识别效果的前提下,算法在效