论文部分内容阅读
自然语言处理是计算机科学中一个引人入胜、富有挑战性的课题。它的任务是建立一种能够模拟人类语言认知过程的计算模型。但是当前计算机的智能水平还远远不能与人类相提并论,困扰其发展的原因有很多,统计语言模型中数据稀疏的处理则是自然语言处理领域必须解决的几个难题之一。本论文主要针对目前正得到广泛推广与应用的统计语言模型,研究了建立模型的各种方法以及相关的平滑技术,提出了能满足概率归一性的建立模型的方法以及结合互信息、熵和非线性优化等理论的基于互信息的统计语言模型平滑技术。论文的主要工作如下: 首先本文介绍了统计语言模型中常用的概率论和信息论方面的相关知识,然后介绍了现有的几类统计语言模型的平滑技术,并分析了其平滑原理与实现方法。其次,论文研究了统计语言模型的建立。在文中列举了多种可以建立模型的方法,但由于在概率归一性方面的问题使得这些方法不能满足使用。因此,本文提出了一种在语料库中的每段前后添加相同符号来做过渡的建立统计语言模型的方法,从而使得到的模型能够满足概率的归一性。同时,本文还提出了一种新的基于互信息的统计语言模型平滑技术。该方法基于模型中元素的互信息值,对互信息值高的事件的概率值进行折扣,对互信息值低的事件的概率值进行补偿,对模型中未出现事件的概率值的获得则回退到低阶模型。进一步,利用非线性系统理论来,依据极小化困惑度方法,确定平滑公式中的系数值,从理论上保证了此平滑技术的优越性。论文最后把本文提出的平滑技术与现有平滑技术进行了比较。通过实验测试平滑后的模型在测试集中的困惑度,基于互信息的平滑技术与其它平滑技术的困惑度值降低40%左右,实验结果显示出本文提出的平滑方法的优越性。论文提出的算法通过编程实现后,已作为一个重要的功能模块应用于本实验室自主开发的“中文自动分词系统”中。论文结尾对全文的工作进行了总结,并对进一步的研究工作提出设想。