【摘 要】
:
汉字具有类别众多和形近字繁多等特点,而且汉字的书写风格各不相同,这导致脱机手写汉字识别任务存在可探索的空间。近年来,深度学习发展迅速,深度卷积神经网络模型在脱机手写汉字识别任务上发挥着重要的作用,但是该模型通常需要大量的训练样本。对于手写汉字来说,除常用字外,其他汉字的样本不够充足,这给识别任务带来了一定的挑战。针对上述问题,本文从印刷体更具规范性的角度出发,使用印刷体帮助和指导脱机手写汉字的识别
论文部分内容阅读
汉字具有类别众多和形近字繁多等特点,而且汉字的书写风格各不相同,这导致脱机手写汉字识别任务存在可探索的空间。近年来,深度学习发展迅速,深度卷积神经网络模型在脱机手写汉字识别任务上发挥着重要的作用,但是该模型通常需要大量的训练样本。对于手写汉字来说,除常用字外,其他汉字的样本不够充足,这给识别任务带来了一定的挑战。针对上述问题,本文从印刷体更具规范性的角度出发,使用印刷体帮助和指导脱机手写汉字的识别。本文的主要工作如下:1.提出基于印刷体指导的检索网络模型,用于脱机手写汉字字符识别任务。该模型在分类网络的基础上加入检索分支,同时引入印刷体作为查询库,在查询库中为脱机手写汉字字符检索到与其最相似的印刷体样本,并将该样本的类别作为预测结果。由于该网络是通过对比样本间的相似性实现目标识别的,因此在少样本学习和零次学习上更有优势。2.提出基于度量学习的模型改进方法,使模型提取的特征具有更好的空间分布。该方法在检索网络模型的基础上加入度量学习分支,使相同类别的样本分布更为集中,不同类别的样本分布更为疏远,进而提高模型的鲁棒性。最终模型在ICDAR-2013脱机手写汉字字符竞赛数据集上达到了97.69%的识别准确率,相比于现有相关研究,该结果有一定的提升。3.提出基于印刷体指导的三阶段实验方法,将印刷体指导手写体识别的思想扩展至脱机手写汉字文本识别任务中。该方法在第一、三阶段使用自定义生成的脱机手写汉字文本数据集训练卷积循环神经网络,在第二阶段将构造的单字符手写汉字文本数据集和对应的单字符印刷体文本数据集送入网络,仅训练网络卷积模块使其具有更强的特征提取能力,从而提升模型的识别效果。最终,经实验证明了该方法的有效性。
其他文献
混成系统是同时包含连续状态和离散状态的动态系统。连续部分通常模拟物理环境的相互作用,而离散部分通常模拟控制系统的运行。计算和控制的结合会导致非常复杂的系统设计,因此混成系统常被应用于航空航天、汽车工业和工厂自动化设计中。到目前为止,混成系统中使用了多种形式化建模方法:混合自动机、混合Petri网、Modelica、Zelus等。对于混合系统的形式化验证,可以使用多种工具,如Hy Tech、PHAV
自股市诞生之后,股票预测问题就受到了来自金融领域和计算机领域的众多研究者的关注。随着深度学习的发展,历史股价、新闻、论坛等数据被各种各样的深度学习模型运用于股票预测问题。然而,其仍然面临着诸多难题,例如财经新闻数据大、涉及面广,当财经新闻中未直接出现上市公司名称时,难以预测受该新闻影响的上市公司,即财经新闻的相关公司挖掘问题;上市公司之间存在复杂多样的关系,公司间相关性建模困难等问题。针对上述挑战
随着人工智能的高速发展和移动设备的普及,各种基于深度学习的应用进入我们的生活,深度学习的成功离不开神经网络对数据的高表征能力,离不开庞大且丰富的数据集。其中,分布式数据处理和分布式机器学习的作用日益凸显,需要多个参与方协作的需求不断涌现。然而,在实际场景中,很多数据由于隐私安全和保密政策,数据拥有者不愿意或不允许将数据分享出来。并且,将数据聚合到一起训练模型会产生高昂的通信成本和存储成本。由此,联
当下主流的阅读理解模型,通常依赖于多头自注意力机制来获取与问题文本相似度最高的答案,其成功的秘诀主要在于预训练语言模型对语言模式相似度的学习能力,而非基于自然语言进行高度的抽象和推理。这也意味着现有的阅读理解模型仅能基于问题表层的信息进行回答,而对于一些需要知识支撑或涉及推理的问题还是难以解决。针对这一问题,本文提出了一种新颖的知识增强图注意力网络(KEGAT),它可利用来自外部知识库Concep
滩涂是海陆交汇的敏感地带,是海滩、河滩和湖滩的总称。沿海滩涂通常包括泥滩、沙滩和岩石区域,是大量水禽、候鸟、螃蟹、软体动物和鱼类等重要野生动物的栖息地,是沿海城市发展重要的物质基础和后备资源。来自海岸开发、海平面上升、海岸侵蚀、河流沉积物流量的增减、海岸沉淀物的沉降和压实,都会对滩涂带来影响。通过对遥感图像的观测,可以有效地了解滩涂的变化情况,从而可以达到管理、保护和恢复海岸生态系统的目标。由于月
随着信息技术的不断发展,数据逐渐成为一种宝贵的社会资源,具有着巨大的社会效益和经济价值。这些数据通常是由用户的个人信息或使用记录组成的,含有大量的敏感信息,若操作不当可能会造成严重的隐私泄露问题。本文首先在智能电网场景下基于安全多方计算技术提出一种隐私保护的数据聚合方案,由于Shamir秘密共享算法具有加法同态性,用户只需将自身电量读数数据的秘密分片分发至相应的各个聚合器,并由其进行本地聚合以及联
在大多数场景下,机器学习所需要的数据往往以表格的形式存储在数据库或者其他存储系统中。并且在机器学习的工作流中,特征工程往往是决定模型性能的关键因素之一,也是机器学习开发中最耗时的步骤之一。即使资深的专家也需要不断地迭代与试错才能找到性能较好的特征工程方案,并且受限于领域知识等原因,手动特征工程的方式很容易忽略掉一些有意义的特征。因此本文设计实现了一个面向表格数据的自动特征工程系统,以帮助数据科学家
在国际化石能源供应日益紧张与生态文明建设不断推进的背景下,实现工业废水的高效处理及能源同步回收已然成为行业的热点议题。基于传统厌氧消化工艺的厌氧膜生物反应器(anaerobic membrane bioreactor,AnMBR),在有效提升废水厌氧生物转化的同时,亦可通过膜组件的高效过滤性能减少反应器内部高活性微生物的流失,进一步提高出水品质和能源转化效率。然而,AnMBR在甲醇废水处理过程中,
随着高通量测序技术的出现和不断发展,生物序列分析变得更加普及,越来越多的生物学研究都涉及物种的基因层面的变化。与此同时,基因组学、转录组学和蛋白组学的生物信息学分析流程也在不断成熟,相关分析也几乎成为了生物学研究深度的重要指标。其中,诸如基因的时空表达量的变化和基因突变往往是生物组学研究的重点分析对象。当细胞或生物个体适应特定的环境变化的过程中,会驱使自身的基因发生特异或非特异的突变。这些基因型的
长期以来,我国在晶圆制造与检测领域处于相对落后的地位。随着如物联网、5G等高新产业的迅速的发展,对芯片的需求越来越旺盛,芯片产能不足的问题进一步放大了我国在该领域落后的状态。在晶圆应力检测设备领域,国外相关企业起步早、技术强,与我们拉开了较大的差距。此外因中美贸易影响,薄膜应力测量仪的进口也变得困难重重,导致我国许多公司无仪器可用。最后,国产晶圆薄膜应力仪的研发处于较低的水平,在应力测量的精确度和