论文部分内容阅读
统计语言模型是二十世纪八十年代兴起的语言建模方法,经过近30年的发展,它已经得到了广泛的应用,深入到各个领域,包括语音识别、信息检索、机器翻译、手写识别、中文自动分词、音字转换领域等等。较为传统的统计语言模型,即词的N元语法模型,仅考虑了先后相邻词的关系,并无语义信息的融入,并且随着当前信息量越来越多,语料库越来越大,数据稀疏成了统计语言模型所面临的主要问题之一,解决数据稀疏问题能够大大提高系统的性能。本文研究的基于类的语言模型能够有效解决语言模型的数据稀疏问题,具有非常重要的研究意义。本文研究的目的是研究基于词聚类的语言模型的算法,提高统计语言模型的性能。基于数据聚类的语言模型能够有效的解决统计语言模型的数据稀疏问题。本文主要进行了以下几方面的研究:首先,介绍了统计语言模型的基本理论知识,并详细讲解了各种可以解决数据稀疏问题的方法,例如:参数平滑回退算法,数据扩充方法,并重点介绍了数据聚类方法以及语言模型的评价方法。其次,研究实现了传统的数据聚类方法。这种方法把互信息作为目标函数,使用贪婪算法,获得最大互信息。由于贪心算法容易陷入局部最优,是一种次优的分类。之后,针对传统方法没有体现词聚类的语义信息,所以研究了能够体现语义信息的基于相似度聚类的方法。这种方法考虑了词语的相邻上下文信息,聚类结果体现出一定的语义信息,之后对这种方法进行了对比实验和分析,结果表明,这种方法要优于传统的聚类方法。最后,针对基于互信息的聚类算法只能包含有限的上下文信息,作者提出了一种基于潜在主题分析的聚类方法。该方法基于LDA(Latent Dirichlet Allocation)分析,设定语料的潜在主题数,通过抽样可以获得词在不同主题上的特征向量分布,此特征能够反映词在主题上的分布,体现全局的语义信息,相对于相邻词的短距离相关,是一种长距离的语义信息,聚类效果比传统的方法的混淆度下降。使用这种方法聚类的结果,同类词之间的主题性很强,和词的N元语法模型结合使用,使得系统的性能得到提高。