论文部分内容阅读
蒙古文信息处理开端于上个世纪70年代末期,随着计算机技术在蒙古文信息处理中的应用,许多研究单位在蒙古文文字处理方面都取得了一些重要的进展。进行蒙古文信息处理的研究工作,首先要解决蒙古文编码、蒙古文输入、蒙古文字库等关键基础技术问题。就蒙古文编码而言,由于研究工作相对独立,且国家没有及时制定蒙古文编码统一标准,各研究单位一般都采用了自定义的基于字形的蒙古文编码系统。在1993年,ISO/IEC10646国际编码标准中才定义了蒙古文国际标准编码。蒙古文信息处理的研究工作最先是在文字排版方面展开的,由于文字排版系统对文字而言比较关注的是文字的“形”,一个单词只要能够出现正确的形状即可。因此基于形码的蒙古文编码方案也应运而生。蒙古文显现字符中普遍存在“一形多音”现象,并且有些组成一个字符的部分结构,在其它多个字符中都可能重复出现,不同的研究单位在制定各自的形码方案时有的采用一个字符,只定义一个编码,但可以表示多个不同发音的字母;有的采用一个字符定义多个编码,相同字形编码不同,可表示不同发音的字母;有的采用将多个字母中都会出现的部分结构,重新定义为一个“字符”或从文字书写的习惯和美观角度出发,将字母中的部分笔画进行了重组,并为每一个“字符”定义一个编码。随着蒙古文信息化的不断深入,人们开始逐渐意识到蒙古文编码差异造成的问题。由于蒙古文编码系统的互不兼容,经常导致技术上的重复开发,在不同编码系统上开发的信息资源无法共享,造成人力、物力和财力的极大浪费。本文主要讨论蒙科立蒙古文编码、智能蒙古文编码、赛音蒙古文编码和蒙古文国际标准编码的转换问题。这里提到的蒙古文特指传统蒙古文,而不包括托忒文、锡伯文、满文和阿礼嘎礼字符。蒙科立蒙古文编码、智能蒙古文编码、赛音蒙古文编码采用的是基于UNICODE的形码编码方案,转换后的蒙古文标准编码拟采用正在报批过程中的蒙古文国家标准编码。整个编码转换工作分三个步骤进行。第一步:分析编码特征,制定编码转换规则,由计算机程序实现编码初步转换。第二步:建立蒙古文词典库,用来校对转换单词的准确性。第三步:建立平行语料库,补充词典库词汇量不足问题,进一步校准不确定的编码转换。