论文部分内容阅读
随着国民经济信息化的不断发展以及Internet的普及应用,中文信息处理成为一种热门的研究领域。因此,对中文自动分词技术的要求也越来越高,成为中文信息处理的一个前沿课题。未登录词对分词精度的影响超过歧义切分,因而成为提高中文分词质量的关键。语境和停用词中隐含着有助于未登录词识别的信息,合理利用能提高识别的质量。为此,本文针对以上关键问题进行研究,主要工作如下:(1)提出一种基于语境的中文分词模型。以往的分词算法大多只考虑语料信息或语境信息,这样会产生局部概率偏见问题。理论分析及实验表明综合考虑语料信息和语境信息可有效提高分词的质量。(2)提出一种基于停用词驱动的未登录词识别方法ROWS。以往大多方法基于停用词干扰未登录词识别这一理念,将其去除后再进行处理。只有很少方法利用规则对停用词进行了后处理,这种在切分结束后对其进行处理不但代价大而且效果不明显。基于此,在结合语料信息和语境信息或上下文信息的同时,对停用词进行建模,减少了局部概率偏见的影响,有效提高未登录词识别的质量。