论文部分内容阅读
语言模型是语音识别系统中至关重要的部分。目前,语音识别技术正在进入应用发展阶段,语音识别的研究也走向更加广泛的应用领域和更加复杂的识别任务。在这个过程中,研究基于数据聚类的的语言建模技术和语言模型自适应技术,可以为语音识别技术走向更加广泛的应用打下良好的基础。本文针对语言建模中的数据稀疏问题,主要进行了以下几个方面广泛而深入的研究。
首先,在基于词聚类的语言模型方面,本文研究实现了基于Mod-KN平滑的层次化词类语言模型。这种模型优先使用更为具体的语境,在数据不足的情况下根据一棵层次化的词类树进行回退。相比于国际上基于Good-Turing平滑的方法,本文实现的基于Mod-KN平滑的层次化词类语言模型具有更高的精度,在已知事件和未知事件两部分都能够降低模型的困惑度,提高系统的识别率。
其次,在基于历史聚类的语言模型方面,本文提出一种基于共享回退的随机森林语言模型,并首次将随机森林语言模型应用到语种识别领域。这种模型能够减轻决策树分裂过程中由于贪心算法造成的过训练问题,对未知事件部分的预测更加准确。本文提出的基于共享回退的随机森林语言模型,在保持每棵决策树原有随机性的基础上,进一步提高了模型的鲁棒性。在语种识别中,性能比目前常用的Ngram模型和决策树模型获得了显著的提高。另外,在语音识别系统中,本文还把随机森林语言模型和层次化词类模型相结合,进一步降低模型的困惑度,提高系统的识别率。
第三,在语言模型的自适应方面,本文提出一个面向广播语音识别的语言模型自适应框架。本文将语言模型与识别任务之间的语言差异分为三类:词典差异、风格和内容差异以及模型的概率分布差异。基于这种分类,本文提出的一个面向广播语音识别的语言模型自适应框架,联合多个技术减小模型与任务之间语言差异。该框架联合了以下技术:一种新的非迭代的新词提取方法,一种新的中文开放式词典语言模型,一种基于困惑度的背景语料筛选方法和一个Ngram概率分布自适应模块。实验表明,在中文的广播语音识别系统中,该框架使系统性能提高了10%。
最后,本文提出一种基于模板匹配的语音识别结果纠错方法。该方法的特点包括:无需显式的对识别结果检错,避免了检错环节带来的错误;利用置信度对结果切分,使用短的识别片段纠错;利用编辑距离和声学混淆度比对识别片段和纠错模板,提高纠错结果的可靠性。实验表明,这种纠错方法在模板库覆盖度较好的情况以及覆盖度一般的情况下都能够提高系统的识别率。