论文部分内容阅读
随着网上数字化信息资源的不断增长,怎么样自动处理这些信息已成为目前一个重要的研究课题,汉语自动分词在中文海量信息处理中起着非常重要的作用。由于汉字之间没有明显的分词标志,如果简单地以单个汉字作为信息处理的基本单元,既缺乏必要的语义表达,又带来大量的冗余信息,因而分词算法在中文信息处理的各个领域被广泛应用。现有的汉语自动分词系统大都是先基于词典进行匹配分词,再利用句法语义关系和统计方法进行歧义处理和未登录词处理。分词词典机制的优劣直接影响到分词系统的速度和效率,因而建立高效快速的分词词典机制势在必行。常用的分词词典机制有:基于逐字二分的词典机制、整词二分的词典机制和基于TRIE索引树的词典机制。在对前面分词词典机制的分析中,前面的三种词典都是以首字建立索引表,通过统计,我们知道在汉语中,二字词和一字词的出现概率远远大于其它字长的词,依据这一现象,我们提出了以词的前两字为关键字建立索引表的想法。该索引表是一个二维数组,该算法是通过将前两字的汉字内码与数组下标建立对应关系来直接确定数据项的位置的,这样通过二维数组可以直接把二字词判断出来,然后再进行下面的查询匹配,这种方法可以使查询次数大大减少,从而使分词速度进一步加快。本文在对语料进行选取,加工的基础上,最终建立了一个基于二字词检测的分词词典试验系统,该系统具有自动分词、词语查询和词典维护的功能。