教育文档版面分析与公式识别

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:yisimple
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术以及社会经济等的高速发展,文档图像数量激增。计算机文档分析在纸质文档电子化、内容识别、内容检索等领域具有广泛的应用。近年来随着教育信息化的不断推进,智能教育成为国家的重要战略之一。新冠疫情下社会对智能在线教育的迫切需求,使得对教科书、习题册等文档的自动分析成为研究的热点。文档版面分析是指根据文档图像中不同区域的语义功能对文档进行区域分割并识别区域类别,是文档分析的关键步骤。其次,面向智能教育的理科文档通常包含大量的公式,因此高置信度的公式识别也是教育类文档分析的关键问题之一。以此为背景,本文对教育文档版面分析以及公式识别算法进行了研究,提出了一种基于改进的语义分割网络的文档版面分析算法来对文档版面进行高精度分割,并采用基于编解码结构的深度学习网络实现公式识别。论文的主要工作内容如下:(1)对比研究了现有的语义分割网络。探究不同类型的语义分割网络的特点,并通过实验对比了基于不同类型的语义分割网络在大型文档图像版面分析数据集上的分割表现,选取出分割精度最高的HRNet网络框架作为后续研究的基准。(2)提出了一种基于改进的语义分割网络的文档版面分析算法。在HRNet网络基础上,本文首先引入了物体上下文表示OCR(Object Context Representation)方法,充分利用各像素点的上下文信息;其次,采用卷积注意力机制CBAM(Convolutional Block Attention Mechanism)提升前景与背景区域分割精度;最后采用Diceloss损失函数缓解由于教育文档图像版面类别不均衡而对小尺寸区域分割不够准确等问题。论文算法在公开数据集PubLayNet上进行了测试,实验结果表明了算法的有效性。(3)采用了基于编解码结构的深度学习网络实现数学公式识别。本文采用了一个基于注意力机制的编解码结构的数学公式识别模型,将其在公开数学公式数据集IM2LATEX-100K上进行预训练,然后将预训练后的模型在版面分析步骤中分割出的公式图片数据集上进行微调,实现对分割出的公式的识别。
其他文献
心电信号特征点检测是心血管疾病诊断分析的重要依据。心电信号通常会含有各种噪声,并且由于个体性差异导致波形形态多样性,为心电信号特征点检测带来一定的困难。现有的心电信号特征点检测算法的检测精度有待提高,存在依赖经验参数与人工特征提取,且无法适应心电信号波形畸变等问题。针对以上问题,本文从深度学习方向入手,研究心电信号特征点检测算法。本文的主要内容如下:1)心电信号预处理。首先,采用公开的QT数据库和
学位
随着我国金融消费行业与数字化技术不断融合与发展,非法套利等黑产技术也在不断的更新,黑产团队参与活动屡禁不鲜,给整个金融消费市场的健康发展和正常运行产生了极大阻碍。对风险用户的识别方法的主要难点集中在如何在大规模与形式繁杂的互联网数据中提取与挖掘有效的信息。若不能对健康用户与欺诈用户准确区分,会因错判健康用户导致活动目标无法达成与造成严重经济损失。本文结合机器学习模型预测方法,对风险用户在营销活动非
学位
随着人工智能技术与产业链的快速发展,双足机器人已经越来越多的出现在我们的日常生活中,在许多领域都发挥着巨大的作用。双足机器人性能的优劣在一定程度上取决于控制系统的优劣。因此,研究和设计双足机器人控制系统具有重要意义。本文旨在针对基于准力矩电机驱动的高性能双足机器人原理样机,设计出一套通用的实时嵌入式控制系统,实现双足机器人的基本控制功能,并在双足机器人原理样机上进行验证。本文的主要研究内容如下:(
学位
随着新一代人工智能的兴起和工业4.0概念地提出,注塑智能化在显著的提升,在注塑工厂进行智能工厂的转型过程中,注塑件制品的自动质量检测是其中必不可少的一环,传统的注塑件检测都是通过人工检测,这种方式效率低下,产品稳定性也无法得到保证。实现注塑件制品的自动化质量检测可以提高检测效率、降低人力成本、提高生产效率。随着工业智能化、自动化的发展,基于机器视觉算法在注塑件缺陷检测中得以应用;但是因为需要研究人
学位
近年来,随着电子商务的快速发展,网购在人们日常生活中扮演着越来越重要的角色。然而随着电商网站的商品不断增加,用户发现越来越难找出感兴趣的商品。因此如何设计推荐系统,帮助用户从海量商品中挑选出感兴趣的商品,逐渐成为当前学术界与工业界热门的研究方向。传统的推荐系统采用静态方式对用户交互信息进行建模,只能捕捉到用户静态的兴趣偏好。不同的是,基于用户行为序列建模的推荐系统能够捕捉到用户动态的兴趣偏好。为了
学位
随着自然语言处理技术的快速发展,融合人工智能的人机交互服务也逐渐在互联网上变得多元化。人与计算机的交互不仅局限于简单的计算机指令传输,计算机还可以通过文本或语音等媒介与人进行互动。开放域对话系统作为自然语言处理技术在人机交互中的重要应用,旨在与人进行不限主题内容的对话交互,由于其广泛的应用场景,在近年来已成为人们的研究热点。人类进行交流的语言信号包含语序、语义等语言规则以及情感等隐含表达。现阶段的
学位
随着深度学习理论技术的不断完善与发展,计算机视觉在日常生活中的应用也越来越多。人数统计任务作为计算机视觉领域重要的研究方向之一,也逐渐影响着人们的生产生活。如对于疫情防控,通过统计公共场合的人数如会议厅、车站、教室等场合对疫情防控起到了重要作用。在人流量管控方面,通过对固定区域过往人流量的分析可以给出行人员提供更加可靠的出行策略。本文通过对国内外人数统计方法的研究和分析,分别基于目标检测算法和目标
学位
伴随着无线通信技术的迅猛发展,5G技术也迎来更加广泛的应用,越来越多的设备可以通过无线技术接入到互联网,基于5G技术的万物互联也变成了可能。然而,无线通信业务快速增长的同时也导致对频谱需求的急剧增加。发射功率作为重要的无线通信资源,一种有效的功率控制方法不仅能够提高频谱资源的利用率,还能提高用户的通信服务质量(Quality of Service,Qo S)。深度强化学习在近年得到了很大的发展,它
学位
当前,利用计算机视觉分类算法辅助医生诊断阿尔兹海默症已经成为较高效的诊断方式。对于阿尔兹海默症病灶分类任务而言,最具有挑战的是在大脑类别下精准区分患者MRI与正常衰老MRI之间的差异。一般地,在区分一些具有类间距离小类内距离大的特点的图像时,通过细粒度算法可以捕获到这些图像之间的细微差异,使得模型在某一大类下找到各个子类中具有区分性的区域。因此,有研究者发现将该算法运用在医学图像识别任务中可一定程
学位
随着我国社会人口老龄化日益加重,老龄群体对家庭医疗护理服务的需求不断提高。家庭护理路径规划与调度问题作为家庭医疗护理服务中一个具有挑战性的问题。然而,现有研究大多考虑老人的服务需求是否满足、服务是否及时、老人对服务是否满意等因素,却忽略了老人在选择护理人员上的预算和偏好习惯。因此,综合考虑上述因素,如何设计有效的护理资源调度方法,对降低家庭护理机构的运营成本以及提高行动不便的老人群体的医疗服务质量
学位