【摘 要】
:
随着计算机技术的发展,自动化、智能化业务系统的需求日益增长。机打票据在企事业中被普遍应用,业务流程中信息的自动识别对成本节约具有重要意义。然而,现有的方法大多要求专业的图像采集设备,识别效率也有很大的提升空间。因此,研究简单且成本低廉的机打票据识别系统具有重要的现实意义。传统的光学字符识别(Optical Character Recognition,OCR)开源软件仅仅可以对文章等简单文本内容进行
论文部分内容阅读
随着计算机技术的发展,自动化、智能化业务系统的需求日益增长。机打票据在企事业中被普遍应用,业务流程中信息的自动识别对成本节约具有重要意义。然而,现有的方法大多要求专业的图像采集设备,识别效率也有很大的提升空间。因此,研究简单且成本低廉的机打票据识别系统具有重要的现实意义。传统的光学字符识别(Optical Character Recognition,OCR)开源软件仅仅可以对文章等简单文本内容进行逐行文字识别。随着深度学习的发展,神经网络在文字检测和文字识别方面都有了长足进步,但在票据结构化识别上,网络并不能解决票据的关键字和内容(Key and Value Structures,KV)提取问题。同时,由于票据公开数据集稀缺,对中小企业来说票据数据的获取和标注费时费力,票据识别系统的训练和部署成本高昂。对此,本文提出了一种新的机打票据识别框架,能够成功识别如手机等移动设备拍摄的票据,并且此框架可以很容易的扩展票据识别的种类。本文的主要贡献如下所述:(1)本文提出了一种新的机打票据识别框架。具体来说,我们提出了一种基于透视投影和连接主义者文本建议网络(CTPN)的图像预处理算法来纠正扭曲的发票图像。然后,通过模板匹配结合坐标微调方法提取准确的KV结构,大幅度降低了票据KV结构的漏检率。此外,本文采用卷积递归神经网络(CRNN)和类Le Net神经网络联合进行字符识别,提高了票据文本的识别正确率。(2)本文提出了一种主动学习网络和一种生成对抗网络训练策略。通过主动学习方法改进CRNN网络,提出了一种添加主动学习模块的CRNN网络和训练方式。对从实际场景收集的机打发票和开源ICDAR数据集进行了相关的实验,在充足数据场景和小数据场景下的比较结果表明了我们的方法可以以更低廉的成本训练模型,并有效提升模型的准确率。此外,为了在小数据场景下进一步改进所提出的模型,我们采用生成对抗网络(GAN)扩展训练样本,实验证明了我们的数据生成方式在票据识别中能明显提高准确率。(3)本文结合实际的票据识别项目实现了一个完整的机打票据识别系统。将本文提出的票据矫正、KV结构提取、文本识别算法应用到销售发票识别、身份证识别等具体识别场景中,该系统部署简单,运行效果良好。
其他文献
随着人工智能的飞速发展,为专注于对计算机推理能力的挖掘,微软推出数学图表类数据集Figure QA,旨在用简单的图形图表组合让计算机完成数学推理任务。而对于计算机而言,要完成对图像信息的整合并结合文字信息进行推理,首先需要完成的就是对图片信息的提取,也就是对图片进行目标检测。因此本文的主要研究内容为图像问答过程中所涉及到的的目标检测过程。对于数学图表类图像而言,与主流目标检测模型中通常采用的真实场
得益于分布式、安全和可追溯的特点,区块链技术自诞生以来就被广泛应用于各类应用场景。但是,与已建立的解决方案(例如分布式数据库系统)相比,区块链系统的吞吐率仍不理想,已经成为阻碍区块链发展的重要挑战之一。作为一种有准入机制的区块链,联盟链相比于公链增加了可监管特性,在交易处理和交易确认延迟方面相较于公链有着显著提升。但当前联盟链使用的共识算法只支持单节点串行出块,如联盟链代表Hyperledger
随着社会进入信息时代,网络上巨大的信息量使得如今用户想要快速检索有效信息变得十分困难。自动文本摘要技术的出现解决了上述问题,但是传统的自动文本摘要技术受限于各种条件,导致难以生成准确率高、语句通顺并且简洁的好摘要。本文以上述问题为着手点,主要研究如何提升中文自动文本摘要的质量,具体研究内容如下:1.提出了基于语义理解的生成式文本摘要模型。传统中文文本摘要模型难以利用原始文本实体间的关联,导致生成的
科技的高速变革不仅使大众的生活更加便利,而且也使人们的业余生活更加丰富多彩。现在人们获取影视节目的主要方式已经从电机频道转变成了互联网平台,人们的选择越来越多,用来观看节目的时间也更加灵活化,大家正在享受信息发展带来的便利。信息技术的发展也带来了信息过载的问题,人们面对互联网上海量的影视节目,往往无法很快选择出自己喜欢的内容。个性化推荐系统就是在这种背景下出现的,它的出现在一定程度上解决信息过载问
随着嵌入式领域的不断发展以及处理器体系架构的持续优化,多核处理器因其高性能、低功耗和低成本等优势得到了广泛的应用。同时,在万物互联的时代,嵌入式设备面临着越来越多的风险和挑战,这不仅需要增强设备的可靠度和安全性,还需要具备高扩展能力。而微内核架构因其本身的架构特点,具备代码量小、可扩展性高、安全可靠等优势,十分适合应用在嵌入式设备中。因此,本文基于团队自研的mginkgo微内核,设计并实现一个面向
近年来,随着深度神经网络的快速发展,基于循环神经网络的模型在机器翻译领域取得了非常显著的成果。因为对话的生成也可以看成是从输入到回复的一种翻译,所以将其应用到对话系统上也是一种非常有前景的方式。并且随着互联网的发展,网络上开始涌现出大量开源的对话数据集,这也使得以数据驱动和端到端的方式训练生成式对话系统成为可能。本文主要研究的是开放域生成式对话系统。不同于特定域的对话系统,其主要目的是和用户闲聊,
随着大数据时代的到来,数据成为企业的核心资产,分析和挖掘数据的潜在价值对企业业务发展和关键决策具有重要作用。数据集成是数据挖掘分析的基础,数据集成中,多源异构数据可能存在数据缺失、不一致等数据质量问题,而数据清洗是保证数据质量的重要手段之一。数据清洗技术需要依赖大量外部知识来指导清洗过程,但由于外部知识规模较小、构建低效等特点,限制了数据清洗效率。而知识图谱具有知识规模大、语义丰富等特点,因此,研
近年来,以卷积神经网络为代表的深度学习方法在医学图像的分类、分割等任务上取得了超越传统方法的成绩,得到了越来越广泛的研究和应用。但是,一方面,由于医学图像的特殊性,适用于自然图像的深度学习模型在用于医学图像上时,模型精度会有所下降;另一方面,现存的深度学习模型普遍计算量大、参数过多,应用于硬件资源受限的设备时存在一定难度,大模型也在训练集数据少的情况下出现过拟合的问题。为了改善和解决上述问题,本论
目的 探讨多普勒超声评价颈动脉粥样硬化斑块性质及狭窄程度的效果,分析其与脑梗死的关系。方法 回顾性分析本院2020年2月至2021年1月76例确诊脑梗死的患者作为观察组,纳入同期住院或门诊非脑梗死患者60例为对照组;2组均接受多普勒超声评价检测颈动脉粥样硬化斑块,对比评价该检查项目对缺血性脑血管病的检出价值。结果 经多普勒超声检查出对照组有39个斑块,观察组135个斑块,观察组不稳定斑块数目明显高
随着计算机科学与技术的快速发展,人们生活质量得到改善的同时,每天产生的数据也在以指数级的速率增长。在这个数据爆炸的时代,由于人工智能、数据挖掘等技术的出现以及快速的发展,数据的潜在价值逐渐被人们重视起来。我们可以从今年3月份发表的《关于构建更加完善的要素市场化配置体制的意见》中看到,国家已将数据视作了生产要素,与其它要素一起融入了经济价值创造的过程之中,可见数据在国家层面得到了最高的认可。然而数据