基于语境和停用词驱动的中文自动分词研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：cxx163252

【摘要】

：

随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。

【作者】

：

江兆中

【出处】

：

合肥工业大学

【发表日期】

：

2010年期

【关键词】

：

中文信息处理中文分词未登录词识别停用词语境

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下:(1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。(2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。

其他文献

原花青素对大鼠脑缺血再灌注损伤的保护作用

目的研究原花青素对大鼠脑缺血再灌注损伤脑组织神经生长因子表达的影响。方法SD大鼠48只随机分4组：假手术组、缺血再灌注模型组、GSP大剂量组、GSP小剂量组，每组12只，应用线栓

期刊

原花青素脑缺血再灌注神经生长因子Procyanidin Cerebral ischemia reperfusion injury Nerve growth

斯坦尼斯拉夫斯基一生探索之启迪

斯坦尼斯拉夫斯基一生都在为体验艺术寻找科学的、有效的演员创作方法。他因而总结出了演员内外部元素的训练和舞台行动规律的技巧。他虽有失误，也有矛盾，但求索不止。他的一生

期刊

体验艺术舞台行动内外部元素形体动作方法

青少年近视综合防控的基本原则与对策

近年来,随着手机、电脑等电子产品使用率的不断增加,青少年近视发病率也在呈不断上升趋势,严重影响青少年的眼部健康。对青少年近视进行综合防控,降低青少年近视发病率的工作

期刊