论文部分内容阅读
语言资源包括语言数据、语言知识和语言技术,因此语言资源建设总体上包括数据资源的建设、知识资源的开发、技术资源的开发。数据资源的建设主要是建立各种语料库。知识资源的开发是语言知识库的建立,把传统语法研究中描述的“知识”转化成形式化的规则。技术资源的开发主要集中在语言文字处理的相关软件(如,电子出版系统、办公自动化系统、在线词典以及网页制作等应用软件)和自然语言处理专家系统(如,语料库加工系统、语言知识获取系统、机器翻译系统等)的开发方面。本文通过分析目前蒙古语言资源建设方面存在的问题,旨在解决蒙古语数据资源建设方面所面临的几个瓶颈问题,实现蒙古文编码转换,蒙古文切分还原,蒙古文词性标注等几项技术。本文的创新点为基于规则的蒙古文编码转换、基于词干的蒙古文词语查询、蒙古文词语切分还原改进算法等。最后将蒙古文编码转换,蒙古文切分还原,蒙古文词性标注集成在一个统一的语言资源库管理平台上。