基于领域关键词的词典及语言模型自适应

来源 :全国第五届计算机语言联合学术会议 | 被引量 : 0次 | 上传用户：fanhaoguohuifang

【摘要】

：

语音识别用统计语言模型多从报刊新闻语料训练而得，词典和统计模型极为庞大，当应用于某一特定领域时，许多无关知识不仅消耗系统资源，而且影响模型性能。该文提出利用特定领域中的

【作者】

：

黄非;徐波;黄泰翼;

【机构】

：

科学院自经研究所模式识别实验室,口语信息处理组(北京)

【出处】

：

全国第五届计算机语言联合学术会议

【发表日期】

：

1999年期

【关键词】

：

领域关键词词典Ｃａｃｈｅ语言模型自适应

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

语音识别用统计语言模型多从报刊新闻语料训练而得，词典和统计模型极为庞大，当应用于某一特定领域时，许多无关知识不仅消耗系统资源，而且影响模型性能。该文提出利用特定领域中的少量自适应语料，在原词表中通过分离通用领域词汇和特定领域关键词汇并自动检测词典外领域关键词汇实现词典自适应，并结合Ｃａｃｈｅ－Ｂａｓｅｄ自适应方法实现语言模型自适应。实验表明，经少量语料（３０篇计算机领域文章，１１５Ｋ文字）自适应后，词典规模由３９，９２５词缩减为１４，６７９词，统计模型由６０Ｍ缩减为３１Ｍ，通过对６篇篇计算机领域测试语料（１１５Ｋ文字）进行音字转换测试表明，在该领域中的音字转换错误率下降３７℅。

其他文献

一种集散式工业生产监测系统的设计与实现

介绍一个用于工业生产监测的集散式计算机系统的设计与实现，描述了其组织结构、软件设计以及所采用的一些关键技术． Describes the design and implementation of a distribut

期刊