基于整词的蒙古文在线手写识别研究与实现

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:Zero1_41004513
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
手写识别是智能化人机交互的重要课题之一,根据识别的方法可分为在线手写识别和离线手写识别。传统蒙古文作为我国蒙古族的语言文字,是我国少数民族的文化瑰宝。蒙古文的文字识别研究开展于二十一世纪初。如今,蒙古文离线识别的研发方法趋于成熟。在市场上已经出现用于传统蒙古文识别的OCR软件,可以进行蒙古文古籍、印刷体文档识别等任务。但是,对于蒙古文在线手写识别,由于手写文字写法随意、有效数据收集困难、蒙古文手写字符难以分割等原因,研究工作还存在着诸多不足。研究蒙古文在线手写识别可以加强科技信息技术在民族地区的普及和应用,有助于蒙古文智能信息化技术的发展与应用,对于传统蒙古文的传承和保护具有重要意义。本文围绕蒙古文在线手写识别任务展开深入研究,主要工作如下:1.构建了蒙古文手写数据语料库,并改进预处理流程中的重采样处理方法,提出了一套适用于蒙古文在线手写坐标序列的预处理流程。实验结果表明,该方法可以较好的优化手写样本的数据表示能力,并有效的提高蒙古文手写识别的准确率。2.本文提出了结合卷积网络、自注意力模型和注意力机制的序列到序列蒙古文在线手写识别模型,实现了模型自主提取笔段和笔画特征并进行无分割字符级识别。同时,提出了基于词典引导的集束搜索算法进行解码实现蒙古文整词识别。实验对比结果表明,本文提出的识别模型提高了蒙古文在线手写单词的识别率,Top10预测结果在测试集上正确率提高到了89.77%。3.搭建了蒙古文在线手写识别云服务系统。系统采用浏览器/服务器架构(Browser/Server,B/S)设计,利用Python第三方库Tornado开发了高并发量网络接口服务,并嵌入到蒙古文智能整词输入法等软件中得到了广泛的应用。
其他文献
近年来基因相关的研究备受关注。临床医学和生物实验产生海量的生物数据,目前有很多数据库都记录了基因和疾病的本体数据,但大部分数据库专一性较强,无法有效根据不同基因的关联关系发现基因潜在信息。本课题融合多个基因相关的数据源,使用改进的随机游走算法,研究并开发了基因集成资源搜索系统,并利用系统中多数据源融合的集成资源进行基因数据挖掘,发现基因的潜在功能。实验结果表明,本文提出的方法在融合了多个数据源之后
创新驱动战略是现阶段国家发展的战略目标,在此大背景下,知识产权战略作为创新驱动战略的重要支撑和保证,作用日益突显。而专利作为一种对知识产权保护(IP)的主要手段也愈加为人们所重视。同时随着新兴技术的飞快发展和专利的申请数量的急剧增长,待审查专利文本大量堆积,并且由于专利本身专业性的加强也使得对专利审查员的专业素质要求越来越高,增加了审查难度。专利侵权检测问题作为审查核心,是突破瓶颈的关键。然而手动
随着智能问答机器人在人工智能领域的不断发展,市场逐步发布了如天猫精灵、小米智能音箱等语音对话类产品,该类产品底层的系统逻辑与算法一直在不断积累与更新。此类产品目前对医学名词及问题还不够敏感。现有意图识别分类较为常用的方法有基于规则模板或特征等,此类方法需消耗较多人力并且覆盖面、分类能力也相当有限。针对上述问题,结合医疗领域对话文本特点,本文提出了基于主题词嵌入的意图识别模型(ETM-T)。该模型将
近年来,以Docker为代表的容器技术已日益成熟,其编排系统Kubernetes的功能日趋完善,但是Kubernetes现有的弹性扩缩容策略存在一些不足之处。本文分析了Kubernetes现有的弹性策略,并针对其存在的问题提出了优化策略。本文主要工作如下:(1)针对Kubernetes现有的扩容策略对新增Pod(Kubernetes中最小的资源调度单元)进行调度时,未考虑多个Pod部署后集群负载均
在命名数据网络(Named Data Networking,NDN)中,安全基于数据内容本身,内容安全性与内容名称和内容生产者的身份相绑定。但在内容检索和内容验证过程中还存在以下内容安全性问题:1)由于命名机制的不透明,导致内容消费者可能无法获得所需可信数据;2)由于传统信任管理模型中以遍历证书链的方式对内容进行验证的时间开销大,导致内容消费者难以验证内容生产者的身份。针对以上2个问题,本文提出一
近几年之内,互联网渗透于生活各处,随之而来的是网上充斥着海量的数据,使网络上的信息变得冗杂,知识图谱的出现能够解决此问题。知识图谱是以图的形式表现客观世界中的概念和实体以及它们之间关系的知识库。知识图谱的构建主要分为四大部分,分别是知识抽取、知识融合(实体对齐)、数据模型构建以及知识推理。共指消解作为知识融合的关键部分,在构建知识图谱中起着重要的作用。共指消解是一项能够将知识图谱中的不同描绘合并到
命名数据网络(Named Data Networking,NDN)是信息中心网络(Information Centric Networking,ICN)最流行的解决方案之一。在NDN中,缓存策略旨在减少网络总延迟和服务器负载。为了提高网络的内容交付速度和可靠性,现有缓存策略通常在多个中间节点上缓存数据,而这将增加中间节点的能耗与内存开销。在物联网应用中,节点的内存和能量是有限的。而传统的NDN缓存
随着城市人口的日益增多,人群大量聚集的现象愈发普遍,随之而来的群体安全问题引起广泛关注。自新冠肺炎疫情发生以来,人员的聚集性活动将显著增加疫情传播风险,进一步推动了人群分析成为研究热点问题。人群计数及密度估计是人群分析中的重要内容,但是现有研究存在以下几个问题:(1)基于视觉的人群计数方法受到人群遮挡、光照条件等因素的影响,在复杂环境中难以取得令人满意的结果;(2)基于WiFi信道状态信息(Cha
在大数据时代,丰富数据之间存在着隐藏、有价值的关联关系。而如何发现这些隐藏的、有价值的关系一直是数据挖掘领域的研究热点。关联规则挖掘是数据挖掘领域最有效的挖掘技术之一,可直接将数据库中丰富的关联关系挖掘出来,进而指导实际的营销工作。在传统关联规则中存在数据库中各项重要性相同、出现频率相似的前提假设,使得当数据库中的项目频率变化较大时,设置最小支持度较为困难,加权关联规则旨在解决该困难。然而该类算法
网络表示学习旨在通过算法自动学习实体的特征来为下游任务提供信息量更加丰富、更加便于利用的实体表示,目前已经在计算机视觉、自然语言处理和推荐系统等多个领域的研究中得到了大量的应用。图卷积神经网络(GCN)是一种具有代表性的结合了神经网络的表示学习方法,可以针对特定的下游任务学习合理的网络实体特征。但是普通的图卷积神经网络主要侧重于特征在网络结构中的传输和聚合,忽视了实体在特征空间中的相对位置,从而使