中文合同文档版面分析关键技术研究

来源 :西南大学 | 被引量 : 0次 | 上传用户:marine_ogz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
版面分析是一种对文档图像中文本段、表格、图片等区域进行定位与识别的技术,它是文档智能化系统中如光学字符识别系统、版面理解等环节的基础,版面分析结果的好坏直接影响到文档智能化系统输出结果的正确与否。在众多文档版面中,中文合同文档因为排版布局的多样化使得其相较于其他文档的版面分析过程更为复杂,因此需要针对中文合同文档的特点设计出一套适合中文合同文档的版面分析系统。本文针对中文合同文档版面分析系统中的预处理、文本倾斜检测与校正、区域定位与识别三个环节所涉及到的问题进行了深入研究,具体研究内容如下:(1)针对传统的文档预处理算法难以适应中文合同文档的问题,本文在传统的二值化和去噪算法的基础上添加了一个文档去底色算法和一个印章去除算法分别去除文档图像的底色和印章部分,为版面分析系统的后续处理流程提供更加高质量的图片。实验结果直观地表明,本文设计的文档去底色算法和印章去除算法的性能是能得到保障的。(2)针对传统投影法在文档倾斜角度检测领域中时间成本过高的缺陷,本文设计出了一种快速投影算法。该算法分为两个部分,即投影值计算和快速寻优。投影值计算解决了传统投影法因需要旋转整张图片而导致的高时间复杂度的问题。快速寻优通过将小范围的局部最优代替全局最优的方式来减少投影值的计算次数,从而降低整个算法在倾斜角度检测过程中的计算时间。通过实验仿真得出,与现有的投影算法相比,本文所设计的快速投影法在文档倾斜角度检测领域中效果良好且具有通用性。(3)针对Faster-RCNN模型在文本区域定位任务上出现漏检和错检的情况,本文在Faster-RCNN模型的基础上通过增加轻量化的PAFPN模块、优化锚框尺寸设定、使用多尺度训练等机制来提高Faster-RCNN模型在文本区域定位任务中的检测精度。与此同时,本文还使用迁移学习训练方式快速且准确地完成了文本区域字体识别的任务。实验结果表明,在本文数据集中,与Faster-RCNN和Publay Net相比,本文所设计的模型效果较好。
其他文献
在实际生活中总存在各种不确定性,复杂的网络由于耦合度高,更容易受到随机扰动的影响。而这种随机干扰会对系统稳定性产生不可忽视的影响,因此对于随机系统稳定性的研究引起各国学者的广泛关注。而对于此类系统,脉冲控制是非常有效的方法和手段。脉冲能够使系统状态发生瞬时的改变,使得系统偏离原有的运动轨迹。学者利用这一特性,通过施加合适的脉冲,使得系统状态趋于期望的运动轨迹。除此之外,脉冲系统还有低成本、高效率、
学位
近代信息技术的爆炸式发展以及数据量的激增导致传统的集中式优化理论和方法愈加难以适用于如今大规模、分布式的数据架构。因此,去中心化、分布式理念的提倡,使得越来越多的学者们关注于分布式优化领域并提出了许多优异且经典的分布式算法。分布式优化方法同传统集中式优化方法最大的不同就在于其将一个大规模优化问题分为众多子问题进行求解,每一个子问题依托于一个实际的智能节点,节点之间只需要通过和邻居节点的交互即可求解
学位
在深圳地区引种狭叶薰衣草、阔叶薰衣草、大甜薰衣草、西班牙薰衣草、羽叶薰衣草、齿叶薰衣草等6种薰衣草,对其栽培适应性、生物学性状和繁殖特性等方面进行分析,以探讨6种薰衣草在深圳进行栽培应用的可能性。结果证实:薰衣草在深圳地区室外栽培无法顺利越夏,实现多年生。但羽叶薰衣草可作为一年生草本植物在深圳地区进行观赏种植,阔叶薰衣草作为一年生植物栽培也可用于观赏和干花制作,齿叶薰衣草和西班牙薰衣草则具有盆栽造
期刊
为及时发现电能计量异常,减少电力企业和用户损失,提出基于计量自动化系统的电能计量异常诊断技术。利用面向服务的体系架构设计对应计量自动化系统,将系统分为数据采集、信息交换、业务处理等层次,建立整体架构;设置系统档案管理、预警管理、实时抄表等功能;在系统中引入均值聚类算法,根据采集的大量历史计量信息,建立时间序列重构计量信息,填补缺失数据;使用相对邻域信息熵算法,结合目标样本权重,计算异常数据在全域中
期刊
阅读是高中英语教学中的重要内容,也是学生今后生活和工作不可或缺的一部分。就目前的英语阅读教学来看,大部分老师的教学模式单一,教学内容仅局限于教科书,阅读课堂也以老师为中心,学生缺乏自我展示、独立阅读、讨论、辩论、合作学习、表达自己观点的机会。针对目前高中英语阅读教学和学习的现状,作者将“文学圈”这一新颖的教学模式引入到高中英语阅读课堂当中。本文作者以合作学习理论、克拉申输入假说理论、建构主义理论和
学位
机器嗅觉已被广泛用于气体的识别与检测。机器嗅觉系统利用气体传感器获取气体数据,经过预处理和特征提取的气体样本被分类算法识别。气体数据的特征提取和识别算法对气体的识别起着重要作用,通常气体样本的稳态响应等特征会被提取出来,如果特征维数过多,还需对特征做降维处理,然后用机器学习算法对这些气体样本的特征进行识别和分类。一些机器学习算法已经在气体识别领域取得了很好的效果,而神经网络模型和传统的机器学习算法
学位
随着自媒体时代的来临,越来越多的人通过社交网络表达自己的见解。在社交网络上每时每刻都有无数新的图像信息被发布,这些图像信息承载着发布者的情感状态。在如此庞大的图像资料面前,研究如何从这些图像中获得所需资讯是非常有意义的事情。图像分析也从一开始识别图像中的直观信息,如图像中有什么,进一步的发展到了情感理解层面,即识别图像中所包含的情感信息,也称为图像情感计算。图像情感计算中一个重要的研究内容就是图像
学位
数据信息安全对于人们的信息交流至关重要。而图像数据是数据信息的一种最常见的形式,其包含的信息量大,且在传输或存储的过程中都可能出现非授权的访问、篡改以及破坏等安全问题。同时,图像数据在传输时往往包含了大量的不必要冗余,对其进行数据压缩可有效降低数据空间和提高传输效率。近年来,压缩感知加密因为可同时对数据进行压缩和加密,且加密过程的计算成本相对较低而受到学界的关注。另一方面,激光混沌作为一种新型的混
学位
在语文教学过程中,阅读是必不可少的一环。而文学类文本作为阅读教学的重点内容,是发展学生创新思维,提高审美品位的良好载体。但在目前的教学中,学生对文章的认识和思考还不够透彻,欣赏评价能力较为薄弱。“陌生化理论”最早由俄国形式主义创始人什克洛夫斯基提出,是俄国形式主义的重要理论之一。将陌生化理论引入到初中文学类文本阅读教学中,能够为阅读教学提供新的研究视角与方向。本论文以陌生化理论为研究视域,聚焦初中
学位
改革开放以来,随着国民经济和工商业的迅速发展,电能的需求量越来越大。大量负荷介入导致电力系统的发、输、变、配、用等环节变得越来越复杂。电能具有即发即用的特性,难以大量储存。电力系统需要根据电能需求安排发电机组启停计划、电力调度计划、电网运行计划等。精确的负荷预测不仅可以降低电力系统的运行成本,还可以提高电力系统的调度效率。根据负荷预测的目的和周期不同,可以将其分为四类:长期、中期、短期和超短期负荷
学位