基于领域关键词的词典及语言模型自适应

来源 :全国第五届计算机语言联合学术会议 | 被引量 : 0次 | 上传用户:fanhaoguohuifang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音识别用统计语言模型多从报刊新闻语料训练而得,词典和统计模型极为庞大,当应用于某一特定领域时,许多无关知识不仅消耗系统资源,而且影响模型性能。该文提出利用特定领域中的少量自适应语料,在原词表中通过分离通用领域词汇和特定领域关键词汇并自动检测词典外领域关键词汇实现词典自适应,并结合Cache-Based自适应方法实现语言模型自适应。实验表明,经少量语料(30篇计算机领域文章,115K文字)自适应后,词典规模由39,925词缩减为14,679词,统计模型由60M缩减为31M,通过对6篇篇计算机领域测试语料(115K文字)进行音字转换测试表明,在该领域中的音字转换错误率下降37℅。
其他文献
介绍一个用于工业生产监测的集散式计算机系统的设计与实现,描述了其组织结构、软件设计以及所采用的一些关键技术. Describes the design and implementation of a distribut
该文是应用灰色系统理论,根据实验数据将不同水灰比、不同期龄的强度作为母因素,以总孔隙率及孔分布率作为子因素,分别对总孔隙率、7.5μ至1000A°、1000A°至500A°、500A°至1
领导者与管理者是两个既有联系又有区别的概念。管理者的任务是把事情做好,而领导者的任务是只做对的事。基层单位领导干部在从事繁重的常规管理工作时往往忘却了自己领导者身
教育为人民服务是党的十六大报告中新的论述,它渗透着“三个代表”的重要思想,突破了“物”的教育和单纯“功利”教育的束缚,具有重要的指导意义.以人民是否满意为标准,用开
会议
文章讨论了领头项奇偶相干态的非经典特性,得出了产生压缩效应和反聚束效应的条件,它们与奇偶相干态是不同的。 In this paper, the nonclassical properties of the leading
该文介绍了一个领域语言开发环境—GarAda95,并将其应用于风险评审技术(VERT),开发了一个面向风险决策管理领域的领域语言。GarAda95在开发领域语言时使用了转换的方法,并支持语