论文部分内容阅读
提出一种基于虚词停顿的中文分词消岐的模型.首先利用建立的虚词知识库对文本进行粗分词-划分停顿,然后对句子中停顿间的短语用双向最大匹配再进行分词,提取歧义部分,最后使用N-Gram模型和数据平滑等技术处理.整个过程分为粗分词、精分词和歧义消除三个过程.测试结果显示,该模型能有效地降低词歧义引起的错误切分率.