论文部分内容阅读
本文重点介绍了一个基于字符串匹配与基于统计相结合的中文分词方法,解决了一定条件下的人名,地名,数量词等未登录词以及交集型歧义和自然语言的二义性引起的歧义等问题。本文的算法首先对待分词的字符串进行断句(优先在待分词的字符串中识别和切分出标点符号,以这些符号作为断点,可将原来的字符串分解为较小的串再进基于字符串匹配的分词,从而减少匹配的错误率),然后对断句结果运用正向和逆向最大匹配算法依次进行分词处理,再对处理结果进行比较,如果分词结果不同则表明可能存在歧义,就采用基于统计的方法进行歧义处理,从而提高了分词的准确率。本文设计的算法在两个方面进行了改进,首先是在分词词典方面,将原来单一的词典分为基本词典和特征词词典两个部分。改进了基本分词词典在内存中的存储结构,根据汉语中两字词的数量最多的特点和哈希索引表查找效率高的特点,采用了双字哈希索引结构将词典中的词按前两个字为索引关键字进行存储,同时改进了剩余字串的存储方式,将词剩余字串按词长逆序存放,提高了匹配查找的速度。在匹配过程中结合特征词词典对歧义进行探测和处理,提高了机械分词的准确率,大大提高了对姓名、地名和数量词的正确切分率减少这些词所引起的歧义数量节省了歧义处理时间,提高了分词速度。其次是在统计分词方面的改进,本算法中利用统计方法处理未登录词和歧义。统计方法的最大缺点就是要求字串要在待分析的字符串中出现一次以上,所以基于统计的分词方法的分全率和准确性比较低,针对这一缺点在歧义处理上,我们加入了一些对汉语语言分析所得的规则,来弥补单纯的统计分词方法的不足。本文采取的歧义处理算法是统计与规则相结合的复合歧义处理算法,结合了根据大量语料统计所得的若干规则,以及语言学的一些知识,同时考虑了语言环境在歧义处理上的重要作用。歧义消解结果比较理想,在一定程度上提高了分词的准确性。