论文部分内容阅读
随着电子化办公的发展,纸质票据电子化、网上财务报销和信息审核等需求越来越旺盛,而人工处理的过程十分枯燥繁琐,如果能够实现自动化地对纸质票据进行结构化识别,对于解放人力资源、提升效率具有重要的意义。票据结构化识别是指将纸质发票经扫描仪或相机等光学设备变为文字图像,从这些图像中提取文字信息,并建立文字间的结构关系,从中提取出所需的关键信息这一过程。文本检测、文本识别等计算机视觉领域相关技术的不断发展,为票据结构化识别过程奠定了技术基础,但纷繁复杂的票据类型、版面上错位的文字关系和有限的票据图像样本标注给这一任务带来巨大的难题,对此本文提出了基于序列模型和基于图像分割的票据结构化识别方法。基于序列模型的票据结构化识别利用深度学习循环神经网络方法进行文本提取,这一方法建立在文本检测的基础上,通过将图像中已知文本区域转化为序列结构,以文本区域的绝对位置、图像特征和相互关系构建序列特征,对文本区域进行分类从而实现关键文本提取。在这之前首先针对多样的票据类型构建多任务票据图像分类模型,对票据相关信息进行分类,再根据不同的票据类型进行针对性的预处理工作,其中通过模板对齐对票据图像进行仿射变换以矫正票据位置,使票据的关键区域位置具有统一性。基于图像分割的票据结构化识别方法将文本检测与文本提取合并,在文本检测模型中增加文本提取分支,通过前者提取的图像特征与文本检测结果学习关键区域分布规律,以图像分割的方法进一步对文本区域进行分割,为不同的文本区域赋予类别属性,从而得到关键文本区域,再通过文字识别方法对区域内关键信息进行识别。本文通过自己构建的多种类型票据数据集,在样本较少的情况下验证了本文提出方法的可行性和准确性,能够克服文本错位等困难情况,实现了票据结构化识别过程。