基于语义分割压缩编码的中文文本识别

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：dragoncool

【摘要】

：

图像文本识别作为环境感知型的一种计算机视觉任务,广泛用于自动化纸质文档识别、自动驾驶和场景语义理解等任务中。近些年,基于深度学习的文本识别方法逐渐成为研究人员关注

【作者】

：

肖宇伦

【出处】

：

哈尔滨工业大学

【发表日期】

：

2004年期

【关键词】

：

文本识别语义分割大类别分类压缩编码

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

图像文本识别作为环境感知型的一种计算机视觉任务,广泛用于自动化纸质文档识别、自动驾驶和场景语义理解等任务中。近些年,基于深度学习的文本识别方法逐渐成为研究人员关注的热点。与传统文本识别方法不同,现有主流的处理范式是将文本图片视为一个整体,直接对图片进行特征提取,最后通过特征解码得到文本识别的结果。然而,最近有研究表明上述方法在特征提取的过程中,会丢失字符的空间结构信息。因此通过保留二维信息的一种基于语义分割的文本识别方法逐渐被研究人员所关注。由于中文文字类别较多,基于语义分割的文本识别方法在中文文本识别任务上存在模型空间占用大,模型训练速度慢等问题。针对此问题,本文提出通过压缩语义分割的编码空间,来减少模型空间占用。同时通过将中文字符结构信息融入编码,来增加编码的语义信息。据调研,本文是首个在语义分割模型上使用非one-hot编码的工作,因此为快速验证本文提出的编码在语义分割模型上的可训练性,本课题选择简单场景下的离线中文单字手写体数据对编码压缩效果进行验证。结果表明基于汉字结构的分层编码压缩方式,既能有效的降低模型存储空间,又达到了较高的识别准确率。自然场景中,文本识别往往需要同时对多种语言进行识别。在前述工作基础上,针对复杂场景下字符结构多样和多语种字符混合编码的问题,本文提出了一种数据驱动的基于自监督学习的编码设计方法,该方法通过自监督学习机制得到不同字符的特征表示,再以特征相似度作为衡量标准对多语言字符的特征表示进行聚类,从而解决大规模、多语言数据集中的字符编码表示问题。模型方面,为解决编码表示的组合错误问题,在语义分割模型基础上,本文通过引入注意力机制自动对编码层特征权重进行调整。本课题选择在两个以中文为主的多语言场景文本数据集进行评测,结果表明上述方法能有效地对场景文本图片进行识别。其中在CTW数据集上达到了85.6%的准确率,比现有最好方法高2.1%。

其他文献

长链非编码RNA ODRUL调控骨肉瘤阿霉素耐药的机制研究

背景:骨肉瘤是儿童和青少年中最常见的原发性恶性骨肿瘤,化疗是其最重要的辅助疗法,然而阿霉素耐药的出现极大地阻碍了其治疗。长链非编码RNA在肿瘤发生、发展中发挥关键调控

学位

骨肉瘤长链非编码RNAlncRNA耐药化疗抵抗

基于多通道盲去卷积算法的单透镜图像复原技术研究

目前,光学成像系统为了满足人们对图像质量的要求,其结构设计、系统研发和后期处理变得越来越先进。传统复杂光学系统为消除透镜成像的图像模糊,结构设计越来越复杂,这提高了

学位

单透镜图像复原多通道盲去卷积点扩散函数

功能性鼻内镜手术中三叉神经-心脏反射发生率的回顾性研究

目的:探讨功能性鼻内镜手术中三叉神经-心脏反射(trigemino-cardiac reflex,TCR)的发生率、临床特征、相关危险因素及处理措施。方法:回顾性分析2016年1月至2017年12月于武汉协和医院连续收治的在全身麻醉下行功能性鼻内镜手术的患者,收集所有患者的临床资料,根据手术医生的不同分为A组和B组,根据术前诊断的不同分为鼻腔、鼻窦、鼻咽和其他手术组。根据电子麻醉记录单采集的生命体

学位

功能性鼻内镜手术三叉神经-心脏反射危险因素用药情况

网络寻衅滋事犯罪若干问题探析

随着信息时代的到来,互联网对人类社会的影响日益加深,一些违法犯罪活动也将触角伸向了网络空间,网络寻衅滋事犯罪就是其中一种,它是传统寻衅滋事犯罪在网络空间的异化,也是

学位

网络空间寻衅滋事公共场所起哄闹事公共秩序虚假信息

基于改进BP神经网络的RFID指纹室内定位算法研究

随着通信技术的发展,生活中基于位置的服务应用越来越广泛,使得室内定位技术的研究越来越受到重视。由于室内的环境相对复杂,干扰众多,如何提高室内定位精度是目前室内定位领

学位

室内定位RFID指纹室内定位算法混合滤波算法BP神经网络烟花爆炸算法

单桥“寄生中频”双频感应加热电源的研究

感应加热技术是利用法拉第电磁感应定律,在时变的磁场中产生涡流,从而给工件进行加热,目前广泛应用在冶金、机械加工、国防等工业领域中,相比于传统的直接加热技术,具有加热

学位

感应加热寄生中频同步双频频率跟踪

胸腺五肽对胃肠道恶性肿瘤手术患者围手术期免疫状态及近期疗效影响的临床研究

目的:本研究收集我院60例胃肠道恶性肿瘤手术患者,探讨应用胸腺五肽对患者围手术期免疫功能的影响,并分析患者免疫功能的变化对其术后近期疗效(术后感染发生率、吻合口瘘的发生率和胃肠功能恢复时间、术后住院时间)的影响,并评估临床应用价值。方法:我们从2017年6月至2018年10月于我院行腹腔镜下胃肠道恶性肿瘤根治术的患者60例,数字随机表法随机分为两组,观察组30例(常规治疗+胸腺五肽肌肉注射10mg

学位

胸腺五肽胃肠道肿瘤围手术期免疫功能并发症

基于生成对抗网络的异质人脸图像转换

异质人脸图像的转换指将人脸图像从一类视觉域,经过合成算法转换到另一类视觉域。随着计算机视觉和深度学习算法的不断发展,异质人脸图像转换在公安安防系统、智能美妆、社交

学位

异质人脸图像转换无监督学习深度学习生成对抗网络

基于深度学习的服饰图像识别定位及检索的研究

近年来,服饰图像的研究随着计算机视觉技术在视觉时尚领域的快速发展而引起越来越多人的关注。当前,在服饰时尚领域主要围绕服饰图像识别、关键点检测、服饰推荐、检索和搭配

学位

服饰识别关键点检测空洞卷积特征融合

隧道补偿多量子阱红外探测器

红外探测器是将红外辐射能量转换成便于计量的物理量的器件,广泛应用于军事、气象、农业、工业、医疗等领域。半导体红外光电探测器有多种结构。其中,量子阱探测器具有良好的均匀性与较高的可靠性,适合于大规模焦平面阵列的制作。同时,它们适用于制作双色和多色探测器。然而,量子阱红外探测器的工作原理决定了探测器的性能难以提升。多数研究人员致力于提高器件光耦合的效率。但也有研究人员提出了改进器件内部结构的方法。其中

学位

红外探测器隧道补偿多量子阱

基于语义分割压缩编码的中文文本识别

其他学术论文