论文部分内容阅读
在研究了多种分词词典机制的基础上,提出一种改进的词典机制.在传统的首字哈希表中增加拼音首字母和次字哈希标志项。在首字哈希表中查询次字的拼音首字母,根据双字以上词的数量决定是否按次字拼音首字母散列到次字首字母哈希表中,以此决定次字的查询方式.在兼顾空间复杂度的同时.缩小次字查询范围能较大幅度地提升高频词的次字的整体查询效率.第3字及其后的字串的匹配仍然采用目前成熟的词典机制.通过实验测试,该机制在增加少量的存储空间情况下,时间效率可提升26%.