论文部分内容阅读
本文从研究汉字机内码表示出发,提出新的中文词组查找的散列算法,这种散列算法的特点是:(1)如果中文词组直接桶存储,在服从一般概率分布条件下,查找的平均工作量为O(N);(2)如果分级存储,对不同的中文信息处理环境,无论关键字状况怎样,都能以相同方法建立索引,其查找平均工作最也为O(N)。此外,本文还给出了算法在自动分词,规则匹配等方面的应用。