蒙古文变形显现字符到名义字符转换的研究与实现

来源 :内蒙古大学 | 被引量 : 10次 | 上传用户:wudizeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机应用技术研究的深入发展,蒙古文信息处理技术也得到了迅速地发展。我国从上世纪70年代末就开始了蒙古文信息处理的研究工作,研究的重点主要集中在蒙古文文字处理方面,文字编码、显示通常是按照字形设计的。但是,蒙古文特有的“同形异音”、“同音异形”现象,使得仅按字形设计的编码方案,已经不能满足蒙古文信息处理更深入的研究。2000年制定的ISO/IEC10646国际标准编码体系中定义了蒙古文国际标准编码字符集,该字符集定义了35个蒙古文基本字母,也称蒙古文名义字符。名义字符编码方案既考虑了蒙古文字母的读音也考虑了其字形。这种编码方案符合了蒙古文字是拼音文字的特点,并有利于蒙古文信息处理的国际化、标准化。在实际应用中,蒙古文是用名义字符的变形显现字符表示的。由于早期研究时,蒙古文变形显现字符的编码不统一或录入人员按字形来录入文字,使得现有的蒙古文电子版文档资料中存在大量的拼写错误,主要表现在错误单词与正确单词的字形相同,但计算机内部编码不同,用不同蒙古文文字处理系统得到的文档,无法实现信息的直接交换与共享。将用变形显现字符表示的蒙古文字转换成用正确的名义字符表示,实现蒙古文信息存储的标准化,已成为蒙古文信息处理研究的关键基础性技术问题。本文使用规则、词典和统计相结合的方法完成了蒙古文字由变形显现字符表示到用名义字符表示的转换工作。由于不同蒙古文信息处理系统的变形显现字符编码方案之间存在差异,本文引用了最小字素编码作为中间编码进行统一转换。本文主要完成的工作分为两个部分:首先研究各种蒙古文变形显现字符编码到最小字素编码之间的转换关系,根据转换关系表将不同编码系统的蒙古文变形显现字符编码统一转换成最小字素编码;其次,采用基于蒙古文正字法词典对照的方法、动词词干词缀切分分别转换的方法、基于统计语言模型的方法综合实现最小字素编码到名义字符编码的转换,实验结果表明,综合运用以上方法提高了转换的正确率,取得了较好的转换效果。
其他文献
Web日志挖掘旨在对Web服务器上的用户访问日志数据使用数据挖掘技术,发掘隐藏在日志数据背后的规律和模式,从大量的Web日志信息中提取出人们需要的有用知识,进而改善Web站点结构
随着信息技术的发展,财政领域的数据访问技术由直接访问后台数据库的方式,改变为通过数据访问中间件访问的方式。采用这种方式能够最大限度的减轻后台数据库的负担,但是同时数据
数据挖掘是近年来兴起的一个新的研究领域,是当今数据库系统研究和应用领域内的一个热点。关联规则挖掘和聚类是数据挖掘的重要模式,在聚类的结果上进行深入的关联规则挖掘,可以
随着信息技术的快速发展,Internet逐渐成为主流的软件运行环境,开放、动态、难控是其最显著的特征。网络的开放性和动态性使得用户需求与计算环境更加频繁地变化,导致软件的变化
剪叉式空间伸展臂作为一种空间可展结构,广泛应用于各种航天器。为降低空间伸展臂的研制成本并使其顺利展开,本文对剪叉式空间伸展臂展开过程进行了仿真分析和优化控制研究。
随着社会的高速发展以及生活压力的增加,人们在日常生活中难免会面临诸如升学、就业、婚姻等问题。这些问题带给人们不同程度心理压力的同时,还伴随着抑郁、焦虑等负面情绪的产
关联规则挖掘是数据挖掘的方法之一。关联规则挖掘通过分析训练数据集,从其中找到潜在的、有价值的知识。关联规则挖掘在商业领域中有着广泛的应用,著名的“尿布与啤酒”的例
随着网络技术的迅猛发展,信息呈现出爆炸式增长。信息检索系统已经成为网络世界中获取信息不可或缺的手段。然而传统基于关键词的信息检索技术并不能准确地理解用户真实需求,
随着嵌入式技术和数字信号处理技术的发展,数字信号处理芯片在日常生活中的应用越来越广泛。但随着系统复杂度的提高,DSP程序的开发和调试的难度也越来越大。而传统的DSP程序开
单核苷酸多态性(Single Nucleotide Polymorphism,SNP)是指在基因组DNA序列中由单个核苷酸(A,T,C,G)的变异所引起的多态性,它是人类基因组中分布最为广泛且富含遗传信息的多态性。S