论文部分内容阅读
分词模块是中文搜索引擎的一个重要组成部分,针对分词提出了一种最短路径与共首字歧义词概率的比较相结合的方法,首先寻找最短路径。如果最短路径不只一条,就比较共首字歧义词概率,选择概率较大的一条路径,效果非常明显。对未登录词识别提出了一种改进的移动窗口算法,在单字序列中移动窗口,并记录状态来寻找新词,能够识别大部分的未登录词。