论文部分内容阅读
以现代哈萨克语短语识别与短语块库构建技术研究工程为背景,以NP和VP结构的歧义类型研究及消除为目的,提取统计方法来处理NP和VP结构的歧义问题.该方法在已经统计与分析出的哈萨克语短语基础上,对哈萨克语NP和VP短语组合结构歧义做全面分析和整理.用互信息方法解决NP和VP的歧义问题准确率(72%)并不高.为了达到更好的准确率就需要数量较大的训练语料库,但是目前实验环境并没有足够的语料.因此,基于规则方法标注好语料并采用人工方式完善训练语料库,再使用最大熵方法来处理歧义问题.实验结果表明,基于统计方法解决N P和V P结构的歧义问题是有效的,其准确率在封闭测试中达到了80.1%.