表单文件的识别与理解

来源 :山东大学 | 被引量 : 0次 | 上传用户:b1035846306
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表单是日常生活中常见的文件,比如银行填写的存款单,邮政汇款单,政府报表,问卷调查等。处理这些表单,主要依靠人手工输入表单中的用户填写项,然后再进行后续的统计,分析等步骤。由于人为因素的加入,使表单结构的提取成为了表单处理过程中的瓶颈。本文的主要研究工作是分析表单组织结构,包括物理结构和逻辑结构,实现表单结构的自动提取。 表单从其外观上看是由单元格组成的,这些单元格之间的逻辑约束关系是由其相对位置关系决定的,因此通过识别表单物理结构,分析其逻辑约束关系,再结合文字识别软件,达到表单自动处理的目的,这也是表单分析的两个重点研究方向。 物理结构识别的主要操作是利用表单物理特性识别得到单元格之间的绝对位置。表单与普通文本文件相比,它的物理特点在于它是由水平和竖直的线框相交而得到的矩形单元格组成,因此可以通过识别线框或者它们相交形成的直角来得到物理结构。因为识别的输入是扫描后得到的表单图像,所以识别算法存在的主要问题在于,扫描后得到的表单图像质量会下降,如表单线框不连续。因此,如何提高识别效率和适应性成为物理结构识别的难点。 对于逻辑结构分析,可以从两方面入手。一是通过分析表单物理结构,得到其整体树形组成方法,它主要探讨的是单个单元格和表单整体之间的关系,而忽略了单元格之间的语义约束关系。另一种方法是通过对单元格进行分类,分析其相对位置关系,采用基于规则的方法得到单元格之间的约束关系。因为其使用了基于规则的方法,从而具有很好的可扩展性,并且提取了单元格之间的语义约束。 本文针对表单文件的物理特性,优化了识别物理结构的算法,主要有倾斜校正算法,表单线框识别算法和矢量化算法。针对扫描到计算机中的表单图像可能会有倾斜,需要首先进行倾斜校正。本文的研究对象是普通表单,内容可以包含表格、图像等,文中提出了一种时间复杂度较低、适应性较强的校正表单倾斜的算法,针对扫描可能引起的多种不利因素,如因为打印或扫描引起的表单中线框断裂、线框不光滑以及人为因素引起的如表单线框和手写字体的交叉等不利因素的影响,提出了新的表单线框识别的算法,在保证识别效果的前提下,算法在效
其他文献
本文以自我幸福这一理论为出发点,展开对功利主义思想的内在审视。分别从:对功利主义自我幸福的内涵描述,功利主义对自我幸福的建立和功利主义自我幸福当代性意义这三个方面
糖尿病足部的病变常由神经病变和血管病变双重原因所致.它不但导致糖尿病患者的生活质量下降,而且造成病人巨大的经济和社会负担.应早期发现和治疗,如处理不及时、恰当,可出
目前临床医生多使用平均红细胞体积(MCV)、红细胞分布宽度(RDW)、平均红细胞血红蛋白浓度(MCHC)三指数贫血分类法,这种分类法对贫血鉴别诊断有一定意义.但实践证明此法忽视了
ue*M#’#dkB4##8#”专利申请号:00109“7公开号:1278062申请日:00.06.23公开日:00.12.27申请人地址:(100084川C京市海淀区清华园申请人:清华大学发明人:隋森芳文摘:本发明属于生物技
全球信息化快速发展,信息技术教育显得尤为重要,对学生的信息素养,即学生获取信息、加工信息、表达信息、评价信息等能力的培养受到国家、学校等有关部门的重视[1]。社会也对
<正>病人在手术过程中,为了防止唾液及支气管分泌物堵塞呼吸道引起窒息或吸入性肺炎,常在麻醉前使用抗胆碱药物,如阿托品抑制腺体分泌。由于抑制了唾液腺分泌,病人术后出现口