基于深度学习的中文识别系统的设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：blueeyes

【摘要】

：

【作者】

：

丁松

【出处】

：

华中科技大学

【发表日期】

：

2020年03期

【关键词】

：

中文识别偏旁部首表意文字序列部件分析网络

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

近些年来,得益于深度学习技术的引入和不断发展,光学字符识别(OCR)领域取得了举世瞩目的突破。特别是在文档中的文字检测和识别领域已经有了成熟的商业化落地。而基于深度学习技术的自然场景下文字和文本识别也有了丰硕的成果。然而,中文字符因其拥有着数量庞大的种类和纷繁复杂的空间结构使得其识别难度较高,目前针对中文字符识别而设计的算法研究成果相对较少,也正因如此,使用深度学习技术进行中文识别的研究还有较高的发展空间。本文就目前中文文字识别的难点展开探讨,调查并研究基于深度学习技术进行中文识别的最新算法成果,并自行搭建新算法所提出的网络结构,使用自行合成的中文字符数据以及公开数据集进行训练与测试,并针对测试结果中出现的不足之处给予针对性的改进,对于文档中和自然场景下中文字符识别的研究有一定的推动和借鉴意义。本论文的主要研究内容如下:首先,本文搜集了国家标准GB18030-2005中规定的全部27533个中文字符,并将所有类别的字符合成了数量相等的字符图片,形成了中文字符齐全,类间数量平衡的数据集。本文使用该数据集训练并测试了基于识别中文表意文字序列的部件分析网络(RAN),验证该算法的零样本学习能力,评估了该算法的实际性能。其次,本文介绍了中文字符的偏旁部首、空间结构、部件以及表意文字序列等概念,详细描述了于近期提出的一种基于预测中文表意文字序列来识别汉字的部件分析网络,并阐明了其网络结构、工作机制以及该网络相对于常规模型的优点。本文基于应用的目的,使用Pytorch自行搭建了RAN深度网络进行实验,在合成数据集上训练并测试了模型的零样本学习性能,验证了RAN网络对于训练中没见过的汉字进行预测的准确性和鲁棒性。此外,本文还采用了CTW自然场景中文数据集,测试了RAN网络在自然场景下的性能表现,验证了RAN网络能以较高的精度预测自然场景下的中文字符。最后,本文通过分析实验中RAN在自然场景下性能的不足之处,通过加入空间变换网络(STN)来改善模型的空间不变性,并设计实验验证嵌入STN模块后的RAN能对自然场景内存在的旋转扭曲等形变的字符图片更为鲁棒,识别性能被进一步提高。论文详细描述了近期基于深度学习进行中文文字识别的算法研究成果,实现并设计实验验证了该算法的有效性与可行性,对未来实际场景下中文文字识别的研究具有一定的推动与借鉴意义。

其他文献

少数民族建筑认知系统设计与实现

少数民族建筑是少数民族文化的结晶,具有很高的艺术和历史价值。如今我国城镇化进程迅速,很多偏远民族村寨常驻人口逐渐减少,少数民族建筑的建造技术等无人继承发扬,导致目前很多人对少数民族建筑缺乏一定的了解,没有比较系统的认知途径。针对少数民族建筑知识普及方面存在的问题,本文以贵州省枫香溪会议会址这一处典型土家族风格建筑和大湾苗寨苗族民居建筑为研究对象进行逆向设计,利用数字化保护手段结合计算机系统开发技术

学位

少数民族建筑逆向设计数字化保护认知系统

华昌达跨国并购美国DMW的并购绩效研究

近年来,由于中国经济的快速增长、资本管制的逐步放松以及国家政策的鼓励支持,中国资本在国际舞台上扮演了更加重要的角色,越来越多的中国企业开展了跨国并购活动,跨国并购活

学位

跨国并购并购绩效股东财富

电子商务对跨国企业营销模式的影响

全球一体化进程的加快和信息技术的高速发展,电子商务技术已经成为跨国企业进行全球市场营销的基本手段,信息内容和渠道的多元化把市场营销带入了整合营销传播时代,营销的重

期刊

电子商务跨国企业整合营销

我国核心要害区域电磁环境安全管控系统建设研究

良好可控的电磁环境是确保核心要害区域安全的重要基础条件。我国核心要害区域分布广泛,类型多样,构成复杂,其电磁频谱承载传递和辐射泄露的均是高度敏感的涉密信息,极易产生

会议

电磁环境核心要害安全管控

人肺腺癌细胞系PC84045的DMs及HSR研究

<正> 人们为了探讨肿瘤发生、发展的机理,提出过多种假说,其中之一为基因扩增学说,即细胞通过增加基因的拷贝数量和基因过高表达来维持其特异性基因的功能,产生过量的与肿瘤

期刊

细胞系基因扩增细胞学DMs染色体数目分裂相HSRPC84045

试论电力工程档案质量管理控制要点分析

在市场经济社会中,电力市场也不可避免出现竞争,尤其是近几年竞争出现加剧。电力企业要想企业决策能力得到提升,充分应用电力工程的成果,其中一个重要途径就是强化管理电力工

期刊

电力工程档案质量管理要点

榆林市阴塔水源地水文地质调查

通过对陕西省榆林市府谷县阴塔水源地水文地质进行勘查,研究该区地形地貌、水文地质及地层分层、地质构造等基本问题,研究了其含水层厚度、岩性、富水性等。借助抽水试验勘定

期刊

水源地抽水试验水动态

唐京师大安国寺晚唐政教地位蠡测

成通十四年唐懿宗迎佛骨至内道场供养,三天后,便在安国寺瞻礼。安国寺是唐两京所有佛寺中,进入《宋高僧传》人数最多的寺院。元和三年,功德使入驻后,该寺成为名副其实的国家

期刊

安国寺内供养迎佛骨政教关系

太平洋鳕仔鱼饥饿实验及不可逆生长点的确定

通过研究饥饿胁迫对太平洋鳕仔鱼生长、形态和行为的影响,确定太平洋鳕仔鱼最佳投饵时间及不可逆点,以期为太平洋鳕人工育苗提供科学参考。实验设饥饿组和摄食组进行研究。结

期刊

太平洋鳕仔鱼摄食饥饿不可逆点

定量与定性研究方法相结合的中医临床疗效评价模式

循证医学对医疗决策的影响是通过利用当前所能获得的最佳临床研究证据,与医生个人的经验、患者的价值观与选择相结合而实现的。然而,现有的临床疗效评价方法——随机对照试验

期刊

中医药临床疗效定性研究定量研究方法学模式

基于深度学习的中文识别系统的设计与实现

与本文相关的学术论文