文档图像的版面分析技术研究

来源 :中南大学 | 被引量 : 0次 | 上传用户:zhangwahaha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档图像的版面分析是文档信息处理系统的重要组成部分,以及复杂文档OCR必不可少的环节,它是实现纸质文档数字化的重要环节。版面分析技术广泛应用于文档自动检索、办公自动化等领域,但由于文档版面类型多样,结构复杂,目前的版面分析技术仍具有较多局限性,因此版面分析具有重要的意义及应用前景。版面分析主要包括版面分割以及区域类型识别两大部分。针对传统的自顶向下方法难以适应复杂版面的问题,本文提出一种基于分割线提取的版面分割算法。该算法首先分别在水平和垂直方向上提取长度及宽度大于一定阈值的初始分割线,并针对固定阈值法适应性不强的问题,提出一种自适应阈值计算方法;然后将初始分割线聚类成线簇,为解决线簇形状复杂、主轴方向难以确定的问题,采用分层聚类方法,使得线簇形状得以简化,并采用一定策略提取出线簇主轴线作为最终分割线;然后对各分割线所形成的交点构建关系模型,并基于该模型采用闭合框搜索算法分割出各版面区域;最后通过区域的筛选及合并处理增强分割结果的有效性。针对现有方法在同一层次考察各项目标属性识别效率不高的问题,本文提出一种基于特征属性的层次识别算法。该算法首先通过样本统计得到各类目标的各项属性概率分布,并引入属性区分力的概念,表达属性区分目标的能力,由此构建目标属性表,识别过程中每次提取当前区分力最大的属性,并计算目标概率,实现一种逐步提取属性并确定目标归属直至最终确定目标类型的层次识别过程。本文针对版面分割所得到的文档区域构建了3*5大小的目标属性表,采用该算法较好地实现了版面区域的识别。经过综合实验分析,本文所提出的版面分析方法对于不同的版面类型以及拍摄条件均具有较好的适应性,并且具有较高的分割率与识别率。
其他文献
ZigBee技术是一种近距离、低复杂度、低功耗、低数据速率、低成本的双向无线通信技术,自动寻找路由,组网灵活,适合节点密集型的网络。远程监控网络是在计算机测控技术的基础
随着Internet的迅速发展和快速普及,Web站点已经成为制造、发布、处理和加工信息的主要平台,但在为人们提供大量信息服务的同时,其自身结构也变得日趋复杂,Web上的数据量也飞
随着工业自动化的飞速发展,生产与生活对计算机信息的依赖程度越来越高,二十一世纪的全球已全面步入数字信息化的时代,而如何安全、可靠、高效的对海量数据进行采集,处理,存储,归档
二维卡通动画因为具有其独特的魅力而被广泛应用于娱乐、广告、教育等领域。如何有效地对已有的卡通动画进行重用,是当前倍受关注的研究课题。卡通运动捕捉是卡通动画重用的
随着现代大型医疗成像设备的飞速发展,新的成像方法和图像处理方法不断涌现,医学图像正成为临床医学研究、诊断和治疗的依据。发展医学图像质量评价方法对于监控和调整医学图
Hulft系统由日本世存(Sassion)公司开发的一套软件系统,这个系统可以在不同操作系统平台下异构数据的网络环境中完成文件共享和数据传输的功能,达到存储虚拟化的效果,即操作
随着经济的迅速发展与人类生活水平的提高,废旧产品的数量也不断的增加,为了减少不可再生资源的浪费,闭环供应链已经成为众多学者关注的话题。与传统供应链相比,逆向供应链增加了许多不确定因素,例如回收数量的不确定性,回收质量的不确定性等等,这样会给供应链的管理带来很多难题,但是闭环供应链的实施在某种程度上会给企业带来好处:首先闭环供应链的实施可以减少制造商的生产成本,增加其利润,所以越来越多的制造商都主动
模糊推理是模糊系统和模糊控制的核心内容,受到广泛的关注。在模糊推理系统中,模糊隶属函数的确定和模糊推理规则的建立一直是难点问题,也是模糊推理系统的关键部分。B样条函
随着Web上的信息猛速增长,基于关键词全文匹配的传统搜索引擎,已不能满足用户在查全率、查准率方面的需求。同时随着科技的发展,人们对于智能化、专业化的需求也一直在提高,
科技项目管理是一项复杂的系统工程,有效管理科技项目是推动科技事业不断向前发展的重要因素。信息技术参与科技项目管理以来,发挥了巨大的作用,得到了各级科技管理部门的重