论文部分内容阅读
语音识别用统计语言模型多从报刊新闻语料训练而得,词典和统计模型极为庞大,当应用于某一特定领域时,许多无关知识不仅消耗系统资源,而且影响模型性能。该文提出利用特定领域中的少量自适应语料,在原词表中通过分离通用领域词汇和特定领域关键词汇并自动检测词典外领域关键词汇实现词典自适应,并结合Cache-Based自适应方法实现语言模型自适应。实验表明,经少量语料(30篇计算机领域文章,115K文字)自适应后,词典规模由39,925词缩减为14,679词,统计模型由60M缩减为31M,通过对6篇篇计算机领域测试语料(115K文字)进行音字转换测试表明,在该领域中的音字转换错误率下降37℅。