非结构化文档的版面分析算法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:chenshunsheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文档图像的版面分析在信息数字化时代下有着巨大的存在意义与价值,越来越多的OCR结果更加依赖版面分析的结果,它是OCR中最重要的部分之一,同时文档图像的版面分析使得纸质文档在数字话的过程中越来越简单便利。当今,版面分析技术在很多领域都扮演着重要的角色,例如:文档检索,自动化批改作业,银行单据识别,纸质文档数字化等。传统的版面分析算法分为如下几类:自顶向下、混合法、自底向上,这些方法虽然在版面分析上都取得了一定的成果,但同时它们都存在一定的局限性,如运行时间过长、分析准确性不高、过度依赖二值化的结果,因此很多时候也无法满足使用需求。近几年由于全卷积神经网络(FCN)在图像分割任务中的流行,也有人基于此方法在非结构化文档版面分析中尝试使用语义分割模型,并取得了不错的效果。尽管语义分割模型在非结构化文档版面分析任务中表现不错,这个方法也存在一定的局限性。第一,通常的语义分割模型需要使用大量带注释的图像进行训练才能获取较为理想的结果,因此对训练样本的要求极为严苛;第二,当出现一种新的类别的时候,通常的语义分割模型没办法做处理,这个时候又需要针对这个新的类别从头开始训练,又会消耗大量的时间。本文首先基于传统方法在拍照图片上尝试了版面分析任务,获得了比较理想的结果,但是依然存在一些问题需要去解决。然后本文在语义分割模型的基础上,提出了一种新方法,称为小样本原型对准正则化网络(FS-PARN),即通过少量的标注样本就可以实现非结构化文档的版面分析任务。本文的FS-PARN方法的灵感来自于最近比较热门的的度量学习和小样本分割的研究,通过结合这两个方向的研究成果,只需要少量的标注图像就可以解决上述两个难题。本文的FS-PARN方法通过度量学习可以更好地利用支持集的信息,即在一个嵌入空间内学习分类原型,然后通过将查询图像上的每个像素与学习到的原型进行匹配来完成像素分类,这样对图像分割有更好的效果。除了通过度量学习方法获得高质量的原型外,本文的FS-PARN方法还引入了支持集和查询集之间的原型对齐正则方法化,使分割更好。除此之外,本文在特征提取模块还加入了注意力机制,最终获得了更好的版面分析结果。本文中得FS-PARN模型在实际文档图像数据集PASCAL-5i、DSSE-200和Layout Analysis数据集上对应的1-shot和5-shot方法的平均iou结果为28.8%和31.7%。在本文最后,基于当前研究现状,讨论了对于非结构化文档版面分析值得进一步探索和研究的方向。
其他文献
布尔函数常被用来设计对称密码体制中的重要组件,其安全性质与整个密码体制的安全性能息息相关。因此,具有优良密码学性质的布尔函数的设计问题一直是对称密码体制中的重要研究方向之一。本文研究并优化生成高非线性度平衡布尔函数的爬山算法(Hill Climbing,HC),在此基础上,结合理论构造和智能搜索两种思想,给出了一种新型的算法,通过程序仿真验证本文提出的算法在高非线性度平衡布尔函数的构造上具有优越的
Radon-Fourier变换(RFT,Radon-Fourier transform)算法是实现长时间相参积累目标检测的一种有效手段。然而,传统RFT算法不仅会产生大量的盲速旁瓣,而且需要遍历目标的运动参数导致算法的复杂度高,难以在实际场景中得到应用。针对上述问题,本文开展了RFT算法盲速旁瓣抑制及其GPU(Graphics Processing Unit)并行化实现研究。完成的工作概括如下:1
宫颈癌是威胁女性健康的最大杀手,每年全世界大约会新增的病例数多达数十万。其中大多数病例是发生在发展中国家,但是由于发展中国家医疗条件有限,发病致死率一直居高不下,而我国是世界上人口最多的国家,同时也最大的发展中国家,宫颈癌的发病率常年居于世界第一,宫颈癌严重危害着我国女性的生命安全,遏制宫颈癌在我国的蔓延刻不容缓。在宫颈癌的检测方法中宫颈细胞的显微图像检查是公认的最简单、最经济和最直接的方法。这种
设[b,T]是BMO函数b和θ型Calderón-Zygmund算子T生成的交换子,gψ.b是BMO函数b和Littlewood-Paley算子gψ生成的交换子。本文借助于Herz型Hardy空间的原子分解及分子分解的理论讨论了θ型Calderón-Zygmund算子交换子[b,T]在加权Herz型Hardy空间中的有界性,以及Littlewood-Paley算子gψ及其交换子gψ,b在Herz型
在研究顶点(算子)代数的过程中,直积和张量积两个概念已经被引进。通过这两个概念,我们也的确得到了一些新的顶点(算子)代数。在这里,我们对局部顶点李代数也引进平行的概念:局部顶点李代数的直积和张量积。并且在本文的第五章,我们会给出一些具体的局部顶点李代数的直积的例子。给出一个李代数L,其圈李代数对应一个局部顶点李代数。通过讨论几个具体的局部顶点李代数(以圈代数对应的局部顶点李代数为例),作者尝试找出
T/R组件是相控阵雷达的基础和核心部件,随着雷达技术的发展,T/R组件呈现出多通道、高频段、高性能的特点,同时也对T/R组件的测试提出了新的挑战。为解决T/R组件测试的难题,高性能T/R阵列自动测试系统的研发显得愈发重要。T/R阵列测试系统为实现自动测试的目的,不可避免的会引入连接线缆、转接夹具和矩阵开关等复杂的嵌入网络,其严重影响了测试系统的去嵌入精度;此外,当系统测试对象为多通道、多组件时,测
随着社会的发展,卷积神经网络在生活和工业中的使用越来越广泛,因为卷积神经网络可以自主地学习目标的特征,具有一定的泛化能力,可以应用在很多场合。虽然基于候选区域的目标检测算法在检测精度上已经比较高了,但是对于小目标的检测效果还不太理想,所以本文改进了Faster R-CNN算法,提出了具有显著性机制的图像检测模型,具体的改进如下:(1)加入了显著性机制。因为小目标图像在经过特征提取后得到的特征图上对
当前,中美贸易战日趋激烈,以美国为首的西方国家开始着手对以华为为代表的中国科技公司进行制裁和技术封锁,以此阻止中国科技制造业企业的全面升级,阻碍中国企业的进一步发展。本文拟通过对计算机、通信和其他电子设备制造业上市公司雇员间报酬差异对公司业绩表现影响的研究,帮助上市公司科学制定薪酬策略,选择合适的雇员间报酬差距,促进公司业绩表现的提升。雇员间报酬差距对公司业绩表现的影响主要通过两种理论得以解释,锦
无线通信、航空航天和智能检测等领域的快速发展对模数转换器(ADC)提出了高分辨率、高转换速度的要求。在成熟结构的ADC中,逐次逼近型(SAR)ADC、增量-累加(Σ-Δ)ADC是高分辨率模数转换器的代表,其分辨率可以做到20位以上,但转换速度仅在KSPS级别;全并行(FLASH)ADC可以做到GSPS的转换速度,但其分辨率较难达到8位以上。流水线型(PIPELINE)ADC结构是对全并行ADC低分
在新时代技术的推动下,工业公司可以利用计算机辅助设计(CAD)生成的结构模型,以3D实体动画的形式,展示产品的效果。在过去的十年左右的时间里,汽车制造业、航空航天制造业和建筑业等工程行业,都已经逐渐开始使用CAD技术,对产品进行数字建模,并将制作出来的CAD模型作为产品设计的结果提交给制造商、建筑商、维修人员或者是监管人员等技术人员。为将计算机技术引入造船业,DNV-GL船级社提出OCX的概念,O