【摘 要】
:
医疗票据识别依赖于光学字符识别技术,主要包含两个阶段:文本检测和文本识别。在文本检测阶段,由于医疗票据中印刷、机打文本相互覆盖,导致文本检测框中存在多种不同类型的文本。在文本识别阶段,基于CRNN(Convolutional Recurrent Neural Network)的文本识别方法对票据中干扰多、模糊的文本图像识别准确率不高。针对上述问题,基于DBNet算法提出了多分类文本检测改进,同时设
论文部分内容阅读
医疗票据识别依赖于光学字符识别技术,主要包含两个阶段:文本检测和文本识别。在文本检测阶段,由于医疗票据中印刷、机打文本相互覆盖,导致文本检测框中存在多种不同类型的文本。在文本识别阶段,基于CRNN(Convolutional Recurrent Neural Network)的文本识别方法对票据中干扰多、模糊的文本图像识别准确率不高。针对上述问题,基于DBNet算法提出了多分类文本检测改进,同时设计了对干扰多、模糊的图像进行文本识别的方法。首先在文本检测阶段,针对医疗票据中不同类型文本相互覆盖的问题,基于DBNet网络结构设计类别分支和分层机制,分类别检测医疗票据中的机打和印刷文本。由于多分类后模型参数量增多,使用轻量级网络Mobile Net V3进行优化,并通过基于通道的剪枝降低模型开销。其次在文本识别阶段,针对票据中线框干扰的问题,对部分人工合成的文本图像随机插入线框,此外,使用Res Net和Mobile Net V3增强CRNN特征提取网络。对于模糊的票据图像,在文本识别中引入了Transformer结构,将Transformer编码模块改为Res Net网络结构,解码模块结合多头注意力机制和全连接网络结构,进一步提高文本识别准确率。最后结合多分类文本检测方法和文本识别方法,实现了一个医疗票据识别系统,此外,对断裂的文本框进行文本框融合,对偏移打印的文本进行位置修正,进一步完善系统功能。多分类的文本检测能有效区分医疗票据中的机打、印刷文字,缓解了不同类型文字间相互覆盖的影响。使用轻量级网络优化后的多分类检测模型,相比于使用Res Net50特征提取网络,模型参数量减少为1/5。在有线框干扰和部分图像模糊的数据集中,基于Transformer的文本识别方法相比于使用Res Net的CRNN算法,文本识别准确率提高了7.5%。
其他文献
为了准确刻画网络论坛投资者情绪并探讨其与我国股市的收益关系,本文将根据东方财富网股吧数据,基于BERT模型构建投资者情绪指数,并借助向量自回归模型考察投资者情绪与股市收益率和成交量之间的动态影响。实证结果表明:相较于6种经典的情感分类模型,本文构建的BERT模型在各项评估指标上的表现更佳;股市收益率对投资者情绪存在正向影响,投资者情绪与成交量存在双向影响。
在计算机视觉领域,三维人脸重建是一个非常热门的研究方向。三维人脸重建方法的目标是根据已有的二维人脸图像,构建出真实且高精度的三维人脸。由三维人脸重建算法恢复的三维人脸可以应用于影视、动画和医学等领域。三维人脸重建技术可作为辅助技术用于人脸编辑和人脸识别等研究方向。现有的基于深度学习的三维人脸重建方法无法生成真实的人脸纹理和精确的人脸形状,对于多样性原始图像重建人脸的鲁棒性不够好。为了生成更加真实且
随着深度学习技术的不断发展及相关产业需求的提升,基于图像的三维物体重建技术受到越来越多的关注。目前,主流三维重建多以深度神经网络为技术支撑,通常包含编码器和解码器两个核心模块。然而,由于深度学习技术在三维重建方面的研究起步较晚,重建出的三维物体在局部细节上仍有待完善。鉴于此,以高质量三维重建为核心需求,围绕深度神经网络中的编码器和解码器设计,开展了以下研究:首先,设计了基于多分辨率编码的三维点云重
随着互联网电商平台的兴起,商品推荐系统发展迅速。研究表明,基于用户与商品交互序列的推荐算法能够感知用户的长期偏好,有助于提升推荐效果。通过对真实数据集分析,发现某些情况下交易数据具有稀疏和短交互性的特征,在二手交易平台中尤为明显,此类问题降低了序列建模推荐方法的有效性。与此同时,当推荐系统进一步面对用户冷启动问题时,有必要综合考虑算法的适应性和数据的稀疏性问题。基于上述分析,对面向稀疏数据的序列建
知识抽取技术能够帮助人们从海量内容中自动抽取结构化知识,因此开展知识抽取技术的研究至关重要。知识抽取具有三个核心的子任务:实体抽取、属性关系抽取和事件抽取,目前各项子任务的研究方法均取得快速发展,但仍存在以下问题:1.算法与领域知识结合不紧密,对领域知识利用不充分。2.嵌套实体识别与实体多分类同时实现较为困难。因此,基于背景知识嵌入,改进了嵌套命名实体识别算法,并设计和实现了知识抽取系统。基于嵌套
临床上医生在对脑颈部动脉血管疾病进行诊断时,通常需要进行CT血管造影(CTA),然后经过手工对动脉供血分区进行切割得到一系列不同动脉分支的多角度摄片重构图像。但这种方法对医生的专业水平要求高并且工作量大速度慢,亟需一种自动生成不同脑颈动脉多角度摄片重构图像的算法。提出一种基于关键点定位的自动脑颈动脉多角度摄片重构算法。首先,提出12个在自动脑颈动脉供血分区中起到关键作用的关键点,并在医院采集的CT
人脸识别技术已广泛应用于各个领域。与传统手工提取人脸特征方式相比,基于深度学习的人脸识别方法能够通过多层级联的卷积神经网络提取更具表达能力的人脸特征,具备更高效、更准确的人脸识别能力。基于深度学习的人脸识别过程主要包括人脸检测与人脸特征识别两个阶段。人脸检测用于在图像中定位人脸,以从中提取人脸信息;人脸识别比对人脸特征提取的结果,判断人脸所属个体。在众多的图像检测方法和图像识别方法中,如何对模型进
党的二十大提出了“中国式现代化”重要思想,中国式农村教育现代化也被赋予新的时代内涵。农村教育发展受所处社会的政治、经济、文化等因素的综合影响。系统梳理新中国成立以来农村教育发展的历史脉络显示:农村教育优先发展战略地位的确立、多管理主体权责关系的平衡、多样化办学实践样态的探索、系统化改革发展思维的完善共同构成了农村教育现代化的实践逻辑。中国式农村教育现代化的推进要通过加强乡村教师队伍建设、挖掘农村教
随着芯片行业的快速发展,摩尔定律出现了瓶颈,不再适用于工艺制程不断缩小的新兴芯片技术。传统的单芯片片上系统(System on Chip,SoC)架构的性能提升速度逐步下降,因此,Chiplet架构受到了学术界与工业界的广泛关注。Chiplet架构的特点表现为支持不同制程、不同功能的芯片封装在一起。但是,现有的基准测试集功能单一,且主要面向同构架构,即缺少针对Chiplet中常见的异构架构的基准测