面向自然场景汉字识别的非平衡性与抗攻击性研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:laiwuywg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
光学文字识别(Optical Character Recognition,简称OCR)是计算机视觉领域的基础课题之一。自然场景下的汉字识别至今仍然存在着一定的提升空间,尤其在不平衡、稀缺训练集上的汉字识别效果并不理想。近些年随着深度学习的飞速发展,自然场景中的文字识别取得了巨大的成就。特别对于文字符号偏少的语种(如英文仅有26个字母),深度学习已经能够达到甚至超越人眼的识别性能。然而对于文字符号复杂并且数量偏大的语种(如中文常用字就有3000多字),受样本不均衡,训练样本稀缺等因素的影响,深度学习方法仍然不能达到理想的识别性能。本文以中文汉字识别为研究对象,针对现有的汉字识别算法在实际应用中所面临的关键技术难题进行了深入的研究与讨论。本文的主要贡献包括以下四个方面:第一,提出了基于聚焦CTC损失的非平衡汉字识别方法。深度学习模型在汉字识别任务的训练过程中不可避免的面临训练数据不平衡的问题,导致低频文字无法得到充分的训练,从而影响模型的整体性能。本文提出的聚焦CTC是一种新型的序列分类损失函数,该方法能够在不对训练数据做人为调整的情况下,使模型在训练过程中自动地向未充分学习的样本倾斜,有效缓解了数据失衡带来的影响,从而提升了模型的整体性能。第二,提出了基于精简稠密网络的汉字识别方法。由于汉字识别难度大,需要使用相对大型的骨干网络提取特征,这不仅增加了模型的训练难度,而且增加了模型推理的耗时。本文中,我们提出了一种稠密网络的精简方法,该方法在几乎不影响原始网络性能的基础上,有效的减小了模型规模以及推理耗时。第三,提出了基于元学习的手写汉字识别方法。手写汉字识别是文字识别领域最具挑战的课题。由于手写字体种类繁多且训练语料稀缺,导致模型训练困难。本文探索了元学习在汉字识别领域的可行性,提出了基于元学习的手写汉字识别方法,该方法能够在一定程度上缓解训练语料稀缺的问题。第四,提出了基于提升迭代法的汉字识别抗攻击方法。在汉字识别过程中,神经网络模型容易受到对抗样本的攻击,从而使得识别模型会对某些在人眼看来简单的测试样本作出严重误判。本文提出了一种有效的汉字识别抗攻击方法,可以有效避免识别模型遭受对抗样本的攻击。我们的方法有效提升了汉字识别模型的稳定性。
其他文献
随着交互类手机终端业务的蓬勃发展,传统的显示屏已经无法满足人们对智能手机显示品质的要求。纵观整个行业,如今高端手机市场都正在向AMOLED屏幕发展,而高端屏幕则需要高性能的显示驱动芯片和数据传输接口的支持。本文基于MIPI联盟最新的MIPI DSI-2和MIPI C-PHY协议,研究设计一款融合D型物理层和C型物理层的高速显示数据传输接口。相对于现有基于D型物理层的显示接口,其可以适配多种上位机的
基于高德地图POI(point of interest)开放性数据,以长沙市为研究区域,利用ArcGIS10.4的核密度、空间主成分等空间分析工机具,分析城市公共服务设施的布局特点,并对市域生活便
历朝历代祭祀孔子的庙宇,可分为两类——文庙和孔氏家庙。其中,文庙又被称为"夫子庙",曾是各级官员祭祀孔子、举行纪念性活动的场所,也是官办的高等学府及文教中心。自唐贞观
伴随科技的发展,人们对精神层次的需求也日益增大,各大视频网站为了更好的满足大众对内容需求,都在研发各自的产品,例如短视频。近几年虚拟现实(VR)和增强现实(AR)的热度持续
自1998年以来,中国正式进入了房地产市场化,房地产行业开始快速发展并且占中国经济中的分量越来越重。随着这些年来房价的大幅波动,人们越来越关注会导致房价波动的一些重大
自1990年以来,美国劳伦斯利弗莫尔实验室C.T.Walters等人开始对热容型激光器进行研究以后,热容激光器就逐渐广泛使用于医疗,工业,军事等方面,在未来发展中,有望使用在载人航
中国境内分布有三种狐属动物,藏狐(Vulpes ferrilata)、赤狐(Vulpes vulpes)和沙狐(Vulpes corsac)。藏狐在我国广泛分布于青藏高原,是资源较为丰富的物种之一。沙狐分布在与青
烟草花叶病毒(Tobacco mosaic virus,TMV)是为害最严重的植物病毒之一。近年来,利用纳米技术在控制植物病原体侵染方面显示出较好应用前景。纳米氧化锌(ZnONPs)和纳米二氧化硅(SiO
汉字作为信息传播的重要媒介之一,是世界上四分之一的人口持续使用数千年的文字,对人们日常工作、生活、学习、交流、工业化生产等均起到了不可磨灭的重要作用。使用信息化技术处理汉字信息已经成为模式识别领域的重要研究分支,它涉及了汉字生成技术、字体转换问题以及深度神经网络等,是一项十分综合性的研究课题。与英文字库的26个字母不同,汉字常用字符集GB2312共由6763个字符组成,数目庞大且笔划部首种类多样。
一、佛像盲谈佛像艺术,对不少人来说是一个相当遥远而陌生的题目。对我自己,也曾是如此,所以我将追述一下个人的经验,从我的幼年说起,从我尚未与佛像结缘时说起。我出生在五
会议