论文部分内容阅读
乌孜别克语名词词干识别是自然语言处理领域的基础研究,主要方法是从句子中提取名词词干,提高名词标注效率和准确性。该文首先陈述形态分析、形态特征对识别其词性的作用,然后讨论乌孜别克语的词类划分标准、名词的形态特征,乌孜别克语西尔里文转换拉丁文,乌孜别克语词汇翻译、标注技术,总结词缀歧义及消解规则。该文提出利用形态规则、词典、最大熵融合策略,设计现代乌孜别克语新词中名词词干识别算法,其中包括特征选择及参数估计、词内部特征、前后依存词特征等。最后以乌孜别克语网站文本作为验证对象,对名词词干进行统计与分析。