文档图像的表格结构识别研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:dawneagle
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
表格按照行和列的方式来组织数据,是一种非常有效的数据格式。表格数据广泛应用在人们日常的生产和生活中,如会议日程、财务报告和信用卡消费记录等。虽然人们可以很容易理解不同风格和布局的表格,但是对于机器而言,自动化地识别并理解各式各样的表格仍是一个不小的挑战。考虑到线上和线下文档中拥有着大量的非结构化表格数据(如图像文件和PDF文档),自动化的表格结构识别方法将有助于大规模的表格数据分析工作。较早的表格结构识别方法通常使用手工设计的特征,并结合启发式规则和统计先验,仅在受约束的场景下表现较好,缺少泛化性。近些年,基于深度学习的方法一般将一个表格建模成一个标记语言序列或者一个表示不同单元格相对位置关系的邻接矩阵,却忽略了单元格逻辑位置的重要性。考虑到已有工作的不足,本文以表格的图结构为核心,针对表格结构识别问题展开了一系列深入的研究:(1)提出一种基于单元格邻域关系的图表示方法,用来表示表格结构,并推理表格中单元格的逻辑位置。该方法首先通过一个单元格关系网络来检测每个单元格的邻域单元格,并使用一种基于距离的样本权重来解决类别不平衡的问题。根据检测到的单元格关系,该方法构建一个带权的图来推理每个单元格的逻辑位置。为了验证方法的有效性,我们收集并人工标注了一个包含238张图像,共476个表格的中文医疗化验单图像数据集。该工作初步尝试了表格的图结构表示,实验结果验证了其有效性。(2)提出了表格图重构,用来重新形式化表格结构识别问题,并提出了一个端到端表格图重构网络模型用来解决该问题。该模型使用一个基于图像分割的分支来检测单元格的空间位置,并将单元格的逻辑位置预测看作是一个有序分类问题来解决。此外,我们对TABLE2LATEX-450K数据集重新标注,生成了一个包含350K表格图标注的新基准数据集。该工作将表格的图结构与深度学习方法进行了深度融合。单元格空间位置与逻辑位置的联合预测也使得表格结构的表示更具泛化性,更容易和表格分析与理解任务相关联。(3)提出了基于关键点回归和稠密上下文的表格图重构网络模型,用来改进表格图重构网络模型。针对单元格尺度变化大、空间位置检测不准确的问题,该工作在单元格分割的基础上,进一步检测每个单元格内的关键点,并回归这些关键点至单元格顶点的相对距离。在表格图重构网络中,为了避免图卷积网络在训练时的过平滑问题,使用结点间的距离定义表格图的邻接矩阵,使得单元格之间的连接变稀疏,而这也导致单元格不能获取远距离单元格结点信息的问题。为了解决该问题,该工作提出使用带掩码的Transformer模型进行改进。实验结果表明,改进后的表格图重构网络在单元格空间位置检测和逻辑位置预测上都取得了更好的性能。(4)构建了一个表格视觉问答演示系统,用来展示了表格结构识别在下游表格解析任务中所发挥的作用。该系统将所提的表格结构识别方法与弱监督的表格解析模型相结合,对于输入的一张表格图像和一个与之相关的问题,首先通过表格图重构网络将非结构化的表格转化为半结构化的格式,然后将半结构化的表格和文本格式的问题进行分词并表示成特征序列。最后,表格和问题的特征序列被输入到一个表格解析模型中得到预测的答案。通过上述研究,本文建立了一套完整的端到端表格结构识别算法,展示了算法的可行性,为今后的表格结构识别研究提供了新的思路。
其他文献
随着核能技术的不断发展与利用,大量高放固体废物随之而生。对高放废物进行深地质处置是目前全世界公认的最具潜力、最有希望投入应用的处置方案。在高放废物处置库的设计中,废物罐周围的缓冲层由高压实的膨润土砌块堆砌组成,在施工过程中必然会形成施工接缝,而施工接缝成为了缓冲/回填材料潜在的水力缺陷与强度薄弱部位。处置库运行期间,缓冲/回填材料会受到热、水、力等多场耦合作用的影响,因此含接缝的缓冲/回填材料在热
学位
随着信息技术的发展,全方位的网络服务和众多移动应用为人们在网上发表观点提供了便捷的途径,这使得网络上蕴含情感的评论文本大量产生。如何让机器理解评论文本的语义并判断其情感倾向,为搜索排序、商品推荐、事务决策、社会治理等上层应用提供依据,已成为学术界和工业界共同关注的热点问题。在实际的应用场景中,评论文本往往面向的是不同的领域,而不同领域的评论针对的是不同的评论对象,所采用的表述语言和情感词汇是有差异
学位
对话是人与人之间交流的重要方式,同时也是人机交互的主要手段。随着人工智能技术的发展,对话生成技术也得到快速发展,但其仍不能满足人们日益增长的生活需求。研究基于神经网络的对话生成新技术,对促进对话系统和人机交互技术的发展具有理论价值和实际指导意义。目前,基于深度神经网络的对话生成方法已经取得了较大的进展,但仍存在一些问题需要探索:(1)现有的端到端对话生成模型容易生成通用性回复,并且生成的回复包含有
学位
轨道列车运维是轨道交通安全的重要保障,基于物联网和人工智能(Artificial Intelligence,AI)技术实现轨道列车关键部件在线监测是当前智能化列车运维的发展趋势。轨道列车在线监测主要包含两个关键步骤:数据采集和故障诊断。由于轨道列车车体结构和运行环境的复杂性,基于物联网和AI技术实现列车数据采集和故障诊断仍面临诸多问题。一方面,大量已有列车车体底部的一些关键部件所处的位置未预留电源
学位
聚合物材料因其结构丰富、柔韧性好、可溶液加工、成本低、质量轻等优势,被广泛应用于聚合物薄膜晶体管及光电探测器的研究开发中。但是聚合物薄膜的无序结构限制了电荷的传输,因此制备高有序度聚合物薄膜成为改善器件电荷输运的重要途径。纳米线结构的引入是提高聚合物薄膜有序度的重要手段之一。然而这一结构对电荷传输及器件性能的影响有待进一步探究。同时,关于纳米线结构对电化学晶体管、光电探测器等光电器件性能影响的讨论
学位
自深度学习模型在ImageNet 比赛上以惊人的性能引起广泛关注以来已有十年时间。深度神经网络在计算机视觉,语音处理,自然语言处理,搜索,计算广告学乃至推荐系统等多个领域都取得了巨大成功,推动了人工智能的快速发展。与此同时,深度学习的黑箱特点让研究者仍然无法从科学的角度理解深度神经网络的学习机理。深度学习的黑箱难题一方面使得深度学习面临对抗样本等问题的挑战,另一方面也使人们无法有效地来选择模型结构
学位
随着工业化进程的加速,空气污染已经成为了一个全球性的问题。空气污染会对人体健康带来很大的威胁。因此,对于空气污染进行监测和预测显得尤为重要。近年来,为了更好地进行空气污染监测,国家建立了许多空气质量监测站点(标准站)来实时监测空气污染物。这些站点可以提供准确的污染物浓度数据,但是部署这些站点需要高昂的成本,因此导致了它们的分布较为稀疏。随着传感器技术的发展,低成本、便携的微型空气监测传感器设备(微
学位
高功率光纤激光器,具有结构紧凑、光束质量好、转换效率高、散热好等独特的优势,在军事战术武器、激光雷达、相干光通信、工业加工、激光医疗等领域应用广泛,是国际上激光技术研发领域持续发展的热点方向之一。随着高功率光纤激光器输出功率的迅速攀升,增益光纤中非线性效应和横模不稳定性问题已成为其进一步发展的瓶颈,亟待突破。大模场面积(Large Mode Area,LMA)单模光纤,在增大模场面积的同时,保持单
学位
随着计算机科学技术的不断发展,新闻网站和即时通讯等在线数据快速增长,多样性数据不断产生。海量信息触手可及,如何设计有效的分类系统来自动处理这些内容成为了亟待解决的问题。在传统的分类方法中,待分类的样本只属于一个标签,即多分类学习。但是现实生活中很多对象是具有多个标签的,例如一篇学术论文很可能既属于“数据挖掘”,又属于“机器学习”。多标签文本分类技术在现实生活中被广泛应用,例如,主题识别、新闻分类、
学位
随着移动设备和通信网络的发展,每天海量的视频数据被采集、传播和保存。视频已成为信息的主要载体,理解和分析视频中的人体行为具有重要的现实意义。行为识别作为视频理解的重要分支,旨在通过分析视频数据,利用特定算法,对视频包含的人体行为进行分析和识别。基于计算机视觉技术的人体行为识别算法是近年来的研究热点之一。计算机视觉技术通过模拟人类的视觉信息处理过程,赋予计算机感知环境的能力和人类视觉功能,为人体行为
学位