乌兹别克语词干提取算法的比较研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:hainian3166
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大.现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想.该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型.实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升.
其他文献
维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的.其中,词干是有实际意义的词汇单元,词缀提供语法功能.该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短
学位
淀山湖是上海市境内最大的天然淡水湖泊,是黄浦江上游重要的水源保护地和生态保护区,具有船运、渔业生产、旅游、农田排灌、调蓄洪涝等多种功能,对上海市的社会和经济发展有着重
白细胞在炎症、损伤和细菌感染部位的浸润主要是由局部产生的趋化物质介导的。在过去的近三十年中,发现了一系列外源及内源性的趋化物质。经典的趋化物质包括细菌来源的氮端甲