论文部分内容阅读
针对制约中文分词算法效能的歧义消除和未登录词识别两大瓶颈,归纳和总结近年来基于词典、基于统计以及基于语义理解中文分词算法的研究内容.基于词典的分词算法以提高时间和空间效率为目标,通过改进词典结构来提高分词效率.双字哈希结构是目前查词性能较好的词典机制,但对于歧义消除和未登录词识别的贡献度有限.基于统计的分词算法通过改进统计语言概率模型,在一定程度上可消除中文分词的歧义,较好地识别出未登录词.条件随机场模型(CRF)综合了隐马尔科夫模型(HMM)和最大熵模型(ME)的特征,是目前基于统计分词算法的主流训练模