论文部分内容阅读
中文分词是中文信息处理的前置过程,其任务是使用机器自动识别中文文本中的词边界。中文分词的几个关键问题分别是:语料库的建设、分词歧义消解以及未登录词识别。本文主要研究分词歧义消解问题,并针对分词系统的反馈问题,提出了基于统计规则的分词算法。基于词典的机械匹配是分词处理的首要环节,而词典的结构对词语匹配速度有很大的影响。针对首字哈希、双字哈希等词典结构不可避免地需要进行二分查找,从而影响匹配速度的问题,本文提出了全哈希前缀树的词典结构,将词语匹配的时间复杂度降低为O(N),其中N是词语的平均长度。实验表明,该词典结构的词语匹配速度是首字哈希结构的5倍以上。统计排歧方法不可避免地受到语料库质量和平衡性的影响,不能覆盖一些特殊情况。因此本文提出了一种切分规则,对分词系统不能正确切分的情况,允许用户通过编写切分规则的方式给分词系统提供反馈信息,校正分词错误。同时将词语匹配、切分规则匹配和统计排歧过程统一在一个算法中。这种基于统计规则的分词算法其时间复杂度是O(M),其中M是待切分句子的长度,切分速度和双向匹配分词算法相当。实验表明,切分规则使分词系统具有了反馈和积累语言知识的机制,是对统计模型的一个有益补充。本文最后实现了基于统计规则的中分分词实验系统,使用国家语委平衡标注语料库进行测试,在没有编写任何切分规则的基础上,分词准确率达96.3%以上,分词召回率达96.7%以上。用户可以通过编写切分规则、增加词典条目等方式,有效地改进系统的分词性能。