论文部分内容阅读
黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大.现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想.该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型.实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升.