基于深度学习的复杂文档版面分割算法研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:changlang0p
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来,计算机文档分析与识别在内容识别、基于内容的检索等领域具有重要的意义,因而成为信息处理领域的重要研究课题之一。其中文档版面分割是文档分析与识别的关键处理步骤,是指将文档版面划分为背景、文本、表格、图片等不同区域。版面分割的精度将直接影响文档分析与识别系统的整体性能。近年来深度学习方法的出现,使得文档版面分割任务取得了很大的进展。但由于文档版面布局灵活复杂、各区域尺寸相差大、元素形态多变等结构特点的影响,高精度文档版面分割算法研究仍面临着巨大的挑战。本文对基于深度学习的文档版面分割算法进行了深入研究,并针对上述特点,提出了一种基于编解码结构的多尺度复杂文档版面分割算法。该算法首先利用特征提取网络提取文档图像特征,然后送入多尺度特征提取网络中生成包含多尺度特征的多通道特征图,最后利用解码器对低分辨率特征图进行分段上采样,以实现文档版面的像素级分割。论文的主要工作如下:(1)对比研究了现有的语义分割网络。通过一系列对比实验,对几种不同类型的语义分割网络进行了分析研究,选取适合文档版面分割任务的网络模型。(2)针对文档版面结构特点所导致的局部歧义问题,设计了一种多尺度特征提取网络。其中反卷积金字塔池化模块通过构建特征金字塔来融合图像的多尺度信息,提升了小尺寸区域的分割精度;位置注意力模块通过捕获像素之间的空间联系来整合远程上下文信息,提升了大尺寸区域的分割精度。实验结果表明两个模块的融合能够提升网络的多尺度特征表达能力,有效解决了局部歧义问题。(3)为了进一步提升网络的分割性能,提出了基于编解码结构的多尺度文档版面分割算法。采用了一种具有瓶颈结构的解码器对低分辨率特征图进行分段上采样,从而使得深层特征图包含更丰富的语义信息。区别于常规的编解码结构,本文在编解码器之间引入了多尺度特征提取网络处理特征图,有效地增强了深层特征图的表达能力,从而进一步提升了网络的分割精度。为了验证算法的有效性,本文在三个文档版面复杂度不同的公开数据集PubLayNet、RDCL以及DSSE-200上进行了对比实验。实验结果表明,基于编解码结构的多尺度分割算法实现了复杂文档版面的高精度分割,同时具有较高的泛化性能。
其他文献
公路疏运是我国散杂货港口疏港作业的重要方式之一。为保证公路疏运效率,港方通常提前制定车辆提货作业的资源投放计划,但计划由人工制定,容易与实际需求形成较大差距,导致提货高峰期交通拥堵与效率低下等问题。本文通过对散杂货港口短时提货车辆数量的预测,为计划的科学制定提供参考。本文的主要研究内容为:(1)散杂货港口短时提货车辆数量的影响因素分析。通过文献综述、专家访谈与业务分析法识别影响因素,基于随机森林算
优先发展公共交通是解决城市交通拥堵的重要途径。作为城市公共交通系统的骨干,城市轨道交通承担着主要交通走廊上长距离客流运输任务。然而,单凭干线轨道交通线路所能覆盖的服务范围十分有限,必须为其设计高效的接驳系统以集散客流。“最后一公里”问题是限制轨道交通能力发挥的重要因素。因此,研究城市轨道交通接驳系统优化问题具有现实性和紧迫性。基于这一背景,本文以国内城市轨道交通接驳系统中最常见的固定线路接驳公交为
随着世界经济的迅速一体化,欧元区的建立,以及近年来非洲经济的增长,国家之间的边境贸易和个人交往变得更加普遍。旅行者总是从其他国家带来大量的纸币。因此,几个国家的纸币交织在一起的可能性越来越大。影响现金交易的最严重问题之一是伪造;数字多色印刷、扫描和图像处理的进步使得制造被称为超级钞票的高清晰度假钞变得更加容易。在刚果民主共和国,伪造的纸币正在成为顺利交易的严重危险。因此,市场上的这种假钞有必要实现
随着我国出租车电动化进程不断加快,换电模式出租车开始在我国各个城市推广使用。在发展换电模式出租车的过程中,换电站点的合理布局规划是促进换电模式出租车大规模推广的关键。目前针对充换电站的布局规划多是从研究区域总体的充换电需求分布出发,较少考虑电动汽车的充换电行为特征,这不利于充换电需求的准确估计以及充换电站的合理选址布局。因此,本文在剖析出租车换电选择行为机理的基础上,结合出租车历史出行时空分布,通
我国大中城市规模在不断扩大,而城市交通基础建设却滞后于城市发展,居民通勤面临距离过大、时间太长以及效率低下等问题。通勤定制公交作为一类新兴的公共交通模式,可以为居民打造高质量的定制出行服务,同时促进城市公共交通的发展,因此对其进行深入研究具有重要的现实意义。本文的主要工作有:(1)总结了定制公交的概念特征、分类方式以及运营流程,阐述了通勤定制公交在时间和空间上的多种关键影响因素。采用K-means
随着科学技术的发展,超声空化效应的应用日益广泛。研究发现合理利用空化效应能给人类的生产生活带来极大方便,而液体中的空化结构及空化泡的动力学行为会影响空化效应的强弱。因此,研究超声激励下液体中的空化结构、空化泡的径向运动及空化泡间的相互作用对更好的利用超声空化效应具有一定的指导意义。本文以超声场中的空化结构及空化泡为研究对象,研究了超声激励下液体中空化结构的形成与发展过程及稳定的空化结构;研究了超声
近年来,针对地铁直流牵引供电系统中杂散电流和轨道电位传统治理方式的不足,零阻变换器系统(zero-resistance system,ZRS)被提出。ZRS跟既有牵引供电系统(traction power system,TPS)并联,通过负阻变换器(negative resistance converter,NRC)、开关单元(switch unit,SU)、回流线缆(return cable,R
重力坝计算原理简单、可建地质类型广泛,是水电水利工程重点结构之一。抗滑稳定是重力坝安全设计中的研究重点,其主要分析方法:单一安全系数法、分项系数极限状态设计法以及可靠度理论设计法。目前实际工程主要采用单一安全系数法。然而,我国现行的水利行业标准《混凝土重力坝设计规范(SL319-2018)》提供了重力坝工程允许安全系数取值规定,此标准中,规定正常工况下允许安全系数均取3。该允许安全系数由工程经验决
氧化锌作为一种透射率高,性质稳定,环保的材料,在有机光伏器件与有机发光二极管研究中被广泛使用。在这些器件中,氧化锌修饰层的主要作用是增强电子传输性能。因此,减少氧化锌薄膜中的缺陷是提高器件性能的关键。所以,在氧化锌修饰层的制备中,紫外、高温、表面包覆等方法被广泛应用。而与以上器件不同的是,有机光电探测器作为一种检测光信号,尤其是弱光信号的光电器件,降低暗电流是提高探测器性能的关键手段之一。而光电子
近年来随着船舶执行的任务越来越复杂,人们对欠驱动船舶自动控制系统提出了更高的要求。自动靠泊系统是实现高效安全航行所不可或缺的一部分。随着无人船技术的发展,建立高效、准确的智能自动靠泊系统具有重要的实践意义。强化学习方法由于具有解决复杂控制与决策问题的潜力,已经成为目前人工智能领域热点研究方向,结合了强化学习与模仿学习的示教强化学习(RLf D)方法通过各类专家策略提供的数据可以提高智能体训练速度和