蒙古文编码转换研究

被引量 : 10次 | 上传用户:you19841231
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蒙古文信息处理开端于上个世纪70年代末期,随着计算机技术在蒙古文信息处理中的应用,许多研究单位在蒙古文文字处理方面都取得了一些重要的进展。进行蒙古文信息处理的研究工作,首先要解决蒙古文编码、蒙古文输入、蒙古文字库等关键基础技术问题。就蒙古文编码而言,由于研究工作相对独立,且国家没有及时制定蒙古文编码统一标准,各研究单位一般都采用了自定义的基于字形的蒙古文编码系统。在1993年,ISO/IEC10646国际编码标准中才定义了蒙古文国际标准编码。蒙古文信息处理的研究工作最先是在文字排版方面展开的,由于文字排版系统对文字而言比较关注的是文字的“形”,一个单词只要能够出现正确的形状即可。因此基于形码的蒙古文编码方案也应运而生。蒙古文显现字符中普遍存在“一形多音”现象,并且有些组成一个字符的部分结构,在其它多个字符中都可能重复出现,不同的研究单位在制定各自的形码方案时有的采用一个字符,只定义一个编码,但可以表示多个不同发音的字母;有的采用一个字符定义多个编码,相同字形编码不同,可表示不同发音的字母;有的采用将多个字母中都会出现的部分结构,重新定义为一个“字符”或从文字书写的习惯和美观角度出发,将字母中的部分笔画进行了重组,并为每一个“字符”定义一个编码。随着蒙古文信息化的不断深入,人们开始逐渐意识到蒙古文编码差异造成的问题。由于蒙古文编码系统的互不兼容,经常导致技术上的重复开发,在不同编码系统上开发的信息资源无法共享,造成人力、物力和财力的极大浪费。本文主要讨论蒙科立蒙古文编码、智能蒙古文编码、赛音蒙古文编码和蒙古文国际标准编码的转换问题。这里提到的蒙古文特指传统蒙古文,而不包括托忒文、锡伯文、满文和阿礼嘎礼字符。蒙科立蒙古文编码、智能蒙古文编码、赛音蒙古文编码采用的是基于UNICODE的形码编码方案,转换后的蒙古文标准编码拟采用正在报批过程中的蒙古文国家标准编码。整个编码转换工作分三个步骤进行。第一步:分析编码特征,制定编码转换规则,由计算机程序实现编码初步转换。第二步:建立蒙古文词典库,用来校对转换单词的准确性。第三步:建立平行语料库,补充词典库词汇量不足问题,进一步校准不确定的编码转换。
其他文献
1996年,上海建立了中国第一家城市土地储备机构,随后杭州、南通等城市相继建立了城市土地储备机构,并出台了有关土地储备的地方性法规,由此土地储备制度得到了一定的推广和运
随着中国城市交通现代化的飞速发展,城市轨道交通也进入快速发展时期。地铁作为城市轨道交通的重要组成部分,其建设规划和安全施工状态也越来越受到人们的关注。由于其施工多
随着新型电力系统设备不断出现,电网仿真软件通过传统硬编码技术进行新型设备的建模已经无法适应新的发展形势。电力系统仿真中自定义建模技术的发展很好地解决了仿真软件中
研究区庄36区自喷井分布密集,以正方形井网为例,应用"动静结合-判别分析"的方法,总结了自喷井自喷的原因。砂体连通性为射孔对应,同种成因砂体相互连通;物性条件为物性相对较
<正>近日,财政部、住房城乡建设部、水利部联合下发了《关于开展中央财政支持海绵城市建设试点工作的通知》(以下简称《通知》)。《通知》明确,中央财政将对海绵城市建设试点
运用各种教学法来提高学生的英语应用能力一直受到语言研究者和英语教师的极大重视。然而,在听、说、读、写这四项基本语言技能中,“写”的要求最高,难度最大。尽管教师运用
饱和羰基化合物是生产医药、激素、香料、食品添加剂、农业化学品等的重要物质。为了合成饱和羰基化合物,常常需要对α,β-不饱和羰基化合物进行碳碳双键的选择性还原,即仅还
投资方股权被动稀释会导致其对子公司的控制受到不同程度的影响。虽然《企业会计准则解释第7号》明确了投资方在子公司股权稀释后仍能实施共同控制和重大影响情况下的会计处
<正>据报道,媒体每天都有虚假报道,这话乍一听有些危言耸听,但的确这是现状,是事实。因为虚假报道是媒体所报道的各类事实出现新闻要素(时间、地点、人物、事件起因、过程、
约翰·马克斯韦尔·库切是2003年诺贝尔文学奖的获得者,他的代表作品《耻》自出版以来备受关注,争议不断。该小说描述了后殖民时代发生在白人身上的一系列可耻的事情以及黑人