论文部分内容阅读
自动分词技术是中文信息处理的基础工程。任何基于词一级中文处理应用系统都离不开分词系统。自动分词技术的重点和难点在于歧义切分处理和未登录词识别。本文首先阐述了现代汉语通用分词系统(GPWS)中歧义切分技术和专名识别技术,在歧义切分技术中,提出了一种切分规则库与基于歧义知识库动态校正相结合的实用歧义处理策略;在专名识别技术中,本文提出了一种专名(包括译名在内的人名、地名、企业字号、企业名和机构名等)一体化、快速识别方法。从大规模真实语料的测试结果来看,歧义切分处理的精度、专名识别的正确率和召回率均达到了较高的水平。 其次,本文概要的分析了通用型分词系统的难点,阐述了GPWS的解决方案,给出了通用分词系统的评价标准;并提出了交互式分词系统的概念,给出了一种简单的交互式方法。取得了良好的效果。