论文部分内容阅读
本文在分析汉语分词一般模型基础上,引入词形概率,词整合系统如词形网格等概念,提出了一个基于词形的汉语文本切分模型,并实现了一个反向动态规划和正向栈解码相结合的二次扫找斩汉语文本切分算法,由于引入了词形概率,词整合系数,本模型不仅反映了词表统计构词规律,而且在一定程度上体现了长词优先的切分原则,初步测试表明,本方法的切分准确率和消歧率分别为99.6%和93.44%。