基于语境和停用词驱动的中文自动分词研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下:(1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。(2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。
其他文献
目的研究原花青素对大鼠脑缺血再灌注损伤脑组织神经生长因子表达的影响。方法SD大鼠48只随机分4组:假手术组、缺血再灌注模型组、GSP大剂量组、GSP小剂量组,每组12只,应用线栓
斯坦尼斯拉夫斯基一生都在为体验艺术寻找科学的、有效的演员创作方法。他因而总结出了演员内外部元素的训练和舞台行动规律的技巧。他虽有失误,也有矛盾,但求索不止。他的一生
近年来,随着手机、电脑等电子产品使用率的不断增加,青少年近视发病率也在呈不断上升趋势,严重影响青少年的眼部健康。对青少年近视进行综合防控,降低青少年近视发病率的工作
通过理论研究和实证分析的方式,对企业加强人力资源管理的重要性和必要性进项叙述,帮助民企在人力资源管理的困境中找到对策。