论文部分内容阅读
书面英文词与词之间用空格分开,而中文却没有词之间的边界标记。因此,词切分成了中文信息处理的一个基础工程。中文的计算机分词研究一直都在力图实现全自动和高质量。但是要确保自动分词的百分之百正确,计算机就得完全理解每个句子的意思,而这是难度更高的一项工作。我们正在研制一个能方便用户提供必要帮助的分词软件,有三种输出模式:中文词切分,英文翻译和双语词对照,以便中英文读者检查校对分词结果。中文词切分的主要问题在于交集型歧义字段的处理。我们做了一个涵盖34篇新闻文章的实验,结果交集型歧义字段识别的正确率和召回率都达到100%。在这些字段的词切分方面,首选切分正确率81.29%,而且所有错误切分在次选切分中都得到更正,方便读者选用。