文档图像逻辑结构分析方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lmtc5238
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在普通文档图像中存在着各式各样的表格,对文档图像中的表格进行自动定位、分析和内容识别是DIA领域的研究重点之一。本文在大量实践工作的基础上,对表格图像的版面结构分析及逻辑结构分析进行了有益的探索。在版面结构分析部分,论文采用了直接抽取构成表格的线条,并计算线条的交点,进而获取各个单元格信息的方法。该方法以线条交点矩阵表示表格版面结构分析结果,不仅降低了对问题描述的难度,体现了表格版面结构的全局行列特征,更易于检索,这为表格图像的后续处理提供了极大方便;在版面结构分析部分,论文提出了完整的表格结构表示方法,并通过嵌套链表描述表格之间的嵌套关系,这为复杂的表格结构描述提供了便捷的描述方式。该方法充分利用了标题域与数据域之间的依赖关系以及基本布局结构的直线交点特征,不仅能够实现对已填充表格的逻辑结构分析,而且可以将表格按照基本的布局结构进行分割。实践证明,论文所述方法有较好的处理效果,可以满足表格结构自动处理的实际应用需求。
其他文献
软件复用是提高软件产品质量和软件生产效率的有效途径。随着软件复用实践的不断深入,软件组件库作为支持复用的一项重要基础设施,得到了产业界和学术界越来越多的重视。但在基
本文对体绘制技术进行了深入研究,介绍了它的产生背景和应用领域。与传统的面绘制技术相比,体绘制技术具有明显的优势,因此成为计算机图形学的一个发展热点。由于体绘制技术
软件测试是保证软件质量和软件可靠性的重要手段,但随着软件规模的不断扩大,复杂度的不断提高,以及面向对象程序设计方法和工具的使用,软件测试的难度也进一步加大,测试质量更加难
本文介绍了一个远程监测系统的具体设计,该远程监测系统的主要目的是为了实现对分散于宝钢厂区内各个远程机房的动力和环境进行监测。远程机房监测系统以企业主干网为依托,采用
使用单一的一种生物特征的生物特征识别系统通常会遇到传感器噪声,采集对人的限制和错误的拒识等的影响。由于这些原因,改进单一的匹配方法的尝试显得效果并不理想。多生物特
国内外学者都对基于一维高分辨距离像的目标识别进行了广泛研究,但进行目标识别必须对获得的目标数据特性有深入研究,这已成为有效利用目标数据特性实现高性能目标识别的关键
近些年来,疲劳驾驶在道路交通伤害中所占的比重越来越大,也越来越得到人们的重视。但是目前疲劳驾驶检测系统在我国并未得到普及,所以致力于研究一种有效性高、实时性好、自适应
随着Internet/Intranet的快速发展和普及,丰富的Web资源构成了一个巨大的全球信息仓库。一方面,Web信息数量庞大,门类齐全,几乎任何信息都可以在Web上找到;另一方面,相对于海量的We
科学工作流是对大规模科学实验进行自动化完成的过程。作为一种数据密集型应用,科学工作流已被广泛用于处理和分析科学研究中的大规模实验数据。由于云环境可提供科学工作流执
国内外在立体显示、视频监视及跟踪等方面均开展了一定的研究,本文讨论了基于Internet的实时立体视频监视以及基于运动检测和人脸检测的智能跟踪技术,并开发了相关的系统。