蒙古文识别文本后处理相关技术研究

来源 :内蒙古大学 | 被引量 : 9次 | 上传用户:table
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文字识别属于模式识别的重要分支,它还涉及到图像处理、人工智能、信息论、形式语言与自动机、模糊数学、语言学等多门学科。目前,以汉文,英文等主要字符集为识别对象的研究已投入应用。蒙古文信息处理工作自20世纪80年代开始至今,进行了一些基础工程的建设和基础理论的研究,也开发过一系列应用系统。但是同国外及国内其它文字的识别相比,蒙古文识别研究起步较晚。本文从文字识别角度充分考虑蒙古文自身的特点及蒙古文识别研究现状的基础上,对蒙古文识别文本后处理技术进行了研究。利用蒙古文语言先验知识对编码转换过程中的二义性问题进行了处理,对系统识别率的进一步提高起到一定的积极作用。论文的结构与内容:第一章主要介绍了此项研究的目的,文字识别的一些基本概念,蒙古文识别已往的研究,蒙古文识别的难点和主要研究内容等与本文有紧密联系的一些基础研究;第二章简要介绍了“多字体印刷蒙古文(混排汉英)文档识别系统”的核心识别方案,系统基础资源建设情况;第三章讨论了“多字体印刷蒙古文(混排汉英)文档识别系统”文本后处理模块的实现过程,主要探讨了字素合并过程和形名转换过程;第四章阐释了进一步的工作及相关研究展望;最后部分是结束语。关于本文中涉及到的基本识别集,各类标准样本、规则库、OCR词典等的样本附于附录中。
其他文献
“把”字句是现代汉语中常见的一个基本句式,同时也是现代汉语中颇具特色的一种句式。有关“把”字句的研究是现代汉语特殊句式研究中的传统课题,语言学界对它的研究热情至今不
水温作为水环境中重要的水文要素,对水生生态系统有极其重要的影响。已有研究表明,大坝建设对天然河流水温的影响巨大,水库蓄水后,受太阳辐射、大坝泄流及电站运行的影响,库
利用分子筛催化异丁烯合成二聚异丁烯,在固定床反应器中考查了温度、空速对异丁烯齐聚反应的影响。结果表明,在自制的R2型分子筛条件下,反应温度180℃,质量空速3h^-1,异丁烯单程转
人类一直追求对新事物的认识和发展。自从人类登上历史舞台,使用不同语言的人们便通过翻译活动进行信息传达和感情交流,从而促进相互之间的了解、达成共识,和谐发展,因此,翻
随着藏族社会的发展,国内外掀起了一股“藏学热”,涌现出了一批又一批的藏学家。经过他们多年的研究,给后人留下了诸多有关藏族社会的政治,经济,文化等方面的精品力作,使藏学研究的
2017年9月份财政部发布了22项管理会计应用指引,管理会计开始在社会各行各业展开应用。银行机构作为金融业的代表性行业也开始了管理会计的应用推广,本文主要从商业银行基于
习近平总书记指出,提高党的建设质量是党的十九大总结实践经验、顺应新时代党的建设总要求提出的重大课题.当前,面对新时代新特点新变化,一些基层党组织政治功能发挥不到位、
目的通过制定并实验测定骨折复位机器人的性能指标,来评价机器人在股骨干骨折复位手术中的有效性和有用性。方法针对8例股骨模型骨,模拟股骨干骨折。采用C臂透视二维图像进行
纵观中外翻译史,力求最大限度地传递原文信息的翻译(对原文信息不增不减)是翻译活动的主流,我们常说的翻译研究指的就是对这种翻译活动的研究。但是,在这种翻译主流之下也不
在中学英语教学中,创设良好的教学情境是十分重要的。教师在向45分钟要效率的同时,要让学生们充分发挥自我,培养其语言综合能力和学习兴趣,同时更要求每一位教师认真备好每一