乌兹别克语词干提取算法的比较研究

来源 :中文信息学报 | 被引量 : 0次 | 上传用户：hainian3166

【摘要】

：

黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大.现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想.该文将乌兹

【作者】

：

吾买尔江·买买提明古丽尼格尔·阿不都外力买合木提·买买提卡哈尔江·阿比的热西提吐尔根·依布拉音

【机构】

：

新疆大学信息科学与工程学院,新疆乌鲁木齐 830046新疆大学新疆多语种信息技术重点实验室,新疆乌鲁木齐830046;

【出处】

：

中文信息学报

【发表日期】

：

2020年1期

【关键词】

：

乌兹别克语词干提取序列标注

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

黏着语的自然语言处理中,词干提取作为一项基础的预处理任务,对其他任务的性能影响较大.现有的乌兹别克语词干提取任务仍依赖基于规则的方法,且实验效果不太理想.该文将乌兹别克语词干提取任务视为序列标注问题进行处理,以字符为最小单位进行切分,分别构建了基于条件随机场(CRF)和门控循环单元网络(Bi-GRU)的乌兹别克语词干提取模型.实验结果表明,基于序列标注的乌兹别克语词干提取模型与基于规则的方法相比不仅降低了人工成本,而且在性能方面有较为显著的提升.

其他文献

基于稳健词素序列和LSTM的维吾尔语短文本分类

维吾尔语是一种派生类语言,其词是由词干和词缀连接而成的.其中,词干是有实际意义的词汇单元,词缀提供语法功能.该文提出了基于词干单元和长短期记忆(LSTM)网络的维吾尔语短

期刊

维吾尔语文本分类LSTM形态学

基于水平集的肺部CT图像分割方法研究与实现

学位

淀山湖浮游动物群落结构及其与环境因子的相关性

淀山湖是上海市境内最大的天然淡水湖泊，是黄浦江上游重要的水源保护地和生态保护区，具有船运、渔业生产、旅游、农田排灌、调蓄洪涝等多种功能，对上海市的社会和经济发展有着重

学位

淀山湖浮游动物群落结构湖泊生态系统环境因子水质评价

没食子儿茶精—3—没食子酸酯对氮端甲酰化的甲硫氨酰-亮氨酰-苯丙氨酸诱导的白细胞激活的抑制效应

白细胞在炎症、损伤和细菌感染部位的浸润主要是由局部产生的趋化物质介导的。在过去的近三十年中，发现了一系列外源及内源性的趋化物质。经典的趋化物质包括细菌来源的氮端甲

学位

fMLF甲酰化肽受体表没食子儿茶精-3-没食子酸酯白细胞趋化移动钙离子动员

乌兹别克语词干提取算法的比较研究

与本文相关的学术论文