论文部分内容阅读
中文信息处理用各种统计方法实现精度的提高,而规则的运用更多是在歧义和未登录词的研究上。蒙古语的统计方法发轫于近几年,但更多的是一种理念的进步,仍是以词干加附加成分的规则方法为主,现有AYIMAG和DARHAN切分和词性标注系统。藏文较多运用规则加统计的方法,也有直接运用viterbi算法进行分词的成果,其基于规则的方法是用格助词和词典库进行分词;现有北大计算语言学研究所和国家语言资源监测与研究中心少数民族语言分中心的藏文自动分词系统,不过还未见藏文词性标注系统的实现成果。维吾尔语有基于隐马尔科夫模型的viterbi算法与基于n-gram模型的尝试,其规则方法仍足词干加附加成分的切分理念,现还未见可用的切分与标注系统。