基于生成对抗网络的低质量字符识别方法研究

来源 :东北师范大学 | 被引量 : 0次 | 上传用户:lintso1101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学字符识别(Optical Character Recognition,OCR)作为计算机视觉领域中的重要分支,在自然场景与特定场景中都具有广泛的应用空间与研究价值。传统的字符识别方法在对于文档等简单背景的字符识别任务中已经取得了较大的成功,但对于较为复杂的特定场景中的符识别难免捉襟见肘。近年来随着卷积神经网络研究的不断深入,因其能轻易地提取数据间深层的特征关系,极大地提高了对于图像数据的处理效率,被广泛的应用在字符识别任务中。然而,通过研究发现,现有的深度学习字符识别方法在面对因各种原因导致形态不全的“低质量”字符数据时,识别效果均不够理想。由于深度学习方法需要通过大量的数据建立识别目标与标签间的可靠映射关系,然而在实际情况中“低质量”字符数据出现的频率较低,很难通过将数据大量地加入到后续训练中来提高神经网络的识别精度。对于此类情况,目前尚无较好的解决方案。为此,本文设计了一种新的解决思路,即首先通过生成对抗网络生成大量“低质量”字符数据,得到其与真实字符数据的混合数据集;其次通过设计出泛化能力更强的轻量级卷积神经网络对数据进行训练与识别。主要工作如下:(1)设计生成式对抗网络生成“低质量”数据。首先使用正常字符数据与语义草图组成数据对模型进行训练,在模型训练好后,通过绘制“低质量”数据的语义草图来生成低质量字符数据。以两种工业字符为例进行了低质量数据生成。同时使用传统生成式对抗网络进行对比试验证明设计的网络不仅能人为高效的引导“低质量”数据的数据生成,也使得整个过程更具可解释性。(2)设计了适用于字符识别任务的轻量级网络。既然“低质量”数据是源自实际应用场景的问题,那自然要能部署到实际场景才有意义。本文基于计算量、内存访问成本等因素,在设计轻量级网络时选取了适合任务的检测头、骨干网络、特征优化器、损失函数等结构,并对其中计算量过大的部分进行了改进,确保整个网络具备极高的部署友好性。在检测头损失函数部分的改进提升了网络字符检测边界的质量,为该网络在字符识别任务中的性能打下了重要的基础。最后在该轻量级网络上对正常数据与生成的“低质量”数据进行训练,设计对比实验并测试识别效果。并将模型部署在嵌入式设备上并进行了推理加速。本文设计的字符识别方法并非只适用于工业字符环境,只是为了展现实验效果才以工业字符数据为例。实际上各领域在应用环境中都会出现“低质量”数据,成为各领域识别问题中的重大难关(例如自然场景下因光照或遮挡而缺失的字符)。上述问题只要进行一定的调整,都能通过本文的方法提升模型对低质量数据的识别准确率。
其他文献
随着在线医疗服务平台的发展,积累了大量的电子健康记录,使得患者可以从丰富的医疗信息资源中获得更好的医疗服务。然而,患者很难从复杂的信息资源中找到最适合医治自己疾病的医生。这些医疗数据中存在许多无法察觉但是又十分重要的联系,所以发现数据中内部关联对于疾病预测及医生推荐问题具有一定的研究价值。有效分析和挖掘电子健康记录对患者及时、准确获得治疗也具有重要意义。传统的医疗诊断方式往往凭借医生的专业知识和实
学位
蛋白质结构预测的研究对了解蛋白质功能、促进蛋白质工程以及药物的研发具有重要意义。而跨膜蛋白则是蛋白质中结构比较特殊的一类蛋白,其通过特殊的跨膜结构穿透磷脂双分子层长期稳定地固定在生物膜上,是生物膜功能的主要承担者。因此,跨膜蛋白结构的研究具有非常重要的生物学和医学意义。根据跨膜区结构的不同,跨膜蛋白可以分为α螺旋和β桶状跨膜蛋白两大类。作为跨膜蛋白中重要一类的α螺旋跨膜蛋白,其结构的研究对于跨膜蛋
RNA与蛋白质的相互作用在许多重要的生物学过程中起着重要的作用。基于新一代测序技术的创新和发展过程,数以百计的RNA结合蛋白(RBP)及其相应的RNA被逐渐发现。通过对其生物学进程的总结和分析,使得在计算生物学方面,利用机器学习的方法对RNA-蛋白质相互作用进行大规模预测成为可能。到目前为止,在计算生物学领域的学者已经在此问题上探究和开发出了多种计算工具和方法,其中就包括深度学习模型,同时也利用基
在“互联网+”时代,随着信息量的不断扩增,人们的兴趣也变得多种多样,如何使人们在巨量的信息中快速准确地找到符合需求的信息就成为当下亟待解决的问题。推荐系统作为一种有效的信息过滤手段被广泛应用于工业界和学术界,因此对推荐系统的研究也成为最热门的课题。大多数推荐方法一般都采用深度学习与协同过滤相结合的方法,在一定程度上提高了推荐的性能,然而这些方法依然存在以下四个问题:(1)不能捕获用户动态变化的兴趣
光学字符识别(Optical Character Recognition,OCR)技术始于上个世纪六十年代中期。深度神经网络出现后,识别对象由印刷体字符发展为自然场景字符,目前基于深度学习的OCR已经成为机器视觉领域中的一个重要研究课题。随着中国制造2025的提出,推动我国的工业面向信息化发展,字符识别技术在工业环境中的应用受到了广泛关注。区别于高分辨率、高清晰度的文档字符图像,复杂的工业环境中字
物联网(Internet of things,IoT)的应用开发前景越发广阔,大量的智能环境可以连接到脑机接口(Brain Computer Interface,BCI)系统上。BCI系统是一种连接人类大脑与外部设备的实时通信系统,直接将大脑产生的信息转换成驱动外部设备的命令,取代人体或言语器官与外部世界进行通信。简而言之,BCI系统可以代替人体大脑周围神经和肌肉组织,实现人与外界环境的沟通。BC
本文研究内容是多维背包问题,多维背包问题的目标是在满足所有维度下的限制条件找出被选择的物品总价值最大的组合,它是NP难的组合优化问题,在计算上具有挑战性并且在生活中应用广泛,多维背包问题广泛存在于货物装载、削减库存、项目选择、资金预算、解决处理器和数据库在分布式计算机系统上的分配问题等方面。因此,求解多维背包问题具有重要的理论指导意义和实际应用价值。本文提出随机采样预处理的方法来求解多维背包问题,
在实际生活和工程实践中,多个待优化目标经常同时出现,大量此类问题采用进化算法来求解,因此多目标进化算法的研究有着重要的理论意义和实践意义,也成为了近些年研究的热点。然而在解决具有较小或非连续可行域的问题中,大多数算法由于不可行域的阻碍无法收敛到Pareto前沿。同时,固定的变异参数使得优秀解和劣质解具有相同的变异概率,无法满足算法在进化过程中对保存优秀解,尽可能地改善劣质解以提高算法收敛性与多样性
卷积神经网络已被广泛应用于自然语言处理领域。句子情感分类是自然语言处理领域中最常见的任务之一。国内外学者在句子情感分类任务中,利用深度学习神经网络进行了大量的实验,证明其能够更有效地获取文本数据中的上下文信息。目前,应用于处理句子情感分类任务的神经网络模型通常包括卷积神经网络、递归神经网络和循环神经网络。随着深度学习的发展,神经网络与注意力结合的架构方式为句子情感分类任务的发展带来了重大的突破,预