论文部分内容阅读
统计语言模型是自然语言处理中一个非常重要的研究方向。它使用统计学的办法来估计自然语言中词的概率分布并以此来计算一句话出现的概率。随着苹果Siri的推出、在线翻译系统的成熟、智能拼音输入法的普及,作为其中重要部分的统计语言模型也受到人们的重视。然而,统计语言模型毕竟是基于统计的,无法反映更多的语言学信息。因此,使用其他技术对语言模型的N-best结果进行重排序开始受到人们的关注。目前语言模型的重排序算法主要有这几种:通过对N-best结果进行词对齐,然后重新构成输出结果,重新计算得分,选出得分最高的作为新的最优候选;或者加入其它信息如词频和置信度来对语言模型输出结果进行重排序;或者通过将测试数据通过多个不同的系统输出结果,然后将这不同系统的结果进行融合。然而,这些方法都没有从语言学的角度来对N-best进行分析提高。针对语言模型N-best重排序,本课题进行了一系列的工作。第一、为了提高语言模型自身的准确度,使得重排序的效果更好,本课题首先建立了一个覆盖面广、数据规模较大的语料库,为一个性能良好统计语言模型的训练打下基础。第二、对训练所使用的字典进行筛选,得到一个实际效果不错的字典。在语料库使用选出来的字典进行模型训练。通过对是实验结果的分析,证明使用覆盖面广、规模大的语料训练出来的模型效果较好。通过选取出并合适的语料进行混合模型训练,得到一个效果不错的混合语言模型。从863的实验数据来看,混合模型取得了不错的效果。第三、上段提到的重排序算法都没有对N-best结果从语言学的角度进行分析改善,为此本课题提出了一种新的重排序算法,提出了词性N-gram模型和词性-词共现模型,通过插入子模型,从多角度反映N-best的其他语言特性,通过线性重排序的方法来将其他子模型与N-best结果联系起来,并使用最小错误率训练方法训练一组权重值,对N-best结果重新打分,重新排序选出最优的候选项。第四、将上面的语言模型和重排序算法在语音识别中进行应用,使用863数据进行测试,通过实验结果,可以发现使用大规模、覆盖面广的语料训练出来的模型具有较好的效果,提出的重排序算法也可以提高语音识别N-best最优候选项的准确率。