基于数据增强的汉语词表和语言模型自适应技术

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户：bole456

【摘要】

：

传统的基于MAP的语言模型自适应技术虽然在解决训练语料的数据稀疏问题上取得了很大的成功,然而该方法的前提是要求有一定量的主题相关自适应语料,然而在某些语音识别应用中,

【作者】

：

宁振江

【机构】

：

中国科学院声学研究所

【出处】

：

中国科学院声学研究所

【发表日期】

：

2005年期

【关键词】

：

自然语言理解语言模型自适应数据稀疏汉语连续语音识别数据增强

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

传统的基于MAP的语言模型自适应技术虽然在解决训练语料的数据稀疏问题上取得了很大的成功,然而该方法的前提是要求有一定量的主题相关自适应语料,然而在某些语音识别应用中,即使是少量的主题相关语料都很难得到,此时MAP方法也无法给出好的结果.在此背景下,本论文主要研究在主题相关自适应语料极少的情况下,利用潜在语义分析技术对该语料文本进行数据增强的方法,其优点在于可以使自适应后的语言模型有能力预测并校正在训练语料中甚至不存在的词汇的出现概率.本论文主要讨论了基于词的统计语言模型.在汉语语言中,字与字、词与词是连写的,之间没有空格分隔,词在句中也没有显式的标记,而且词语的定义比较灵活,导致无法直接将已有的词表优化、模型自适应等技术直接应用到汉语连续语音识别当中.因而本文同时也着重研究了汉语文本语料的预切分、主题领域相关的汉语词表增强和优化以及汉语连续语音识别词表的优化等问题.

其他文献

警营书法家王俊涛

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

书法家

对JPEG2000算法的改进研究

本文在JPEG2000标准的基础上，对图像压缩比，压缩速度做了一些尝试研究。全文分为两部分：第一部分，位平面并行的编码算法。。通过初始化过程，给每一个位平面构造了各自的上下文

学位

图像数据压缩位平面并行编码编码时间彩色图像高频分量

文昌鱼尿素酶辅助蛋白UreG基因的克隆、特性、进化分析和组织特异性表达的研究

在动物的进化历程中，文昌鱼是介于无脊椎动物与脊椎动物之间的过渡类型。利用分子生物学手段，研究文昌鱼有关基因的结构、进化和表达，不仅可为我们从分子水平上解开脊椎动物起源

学位

文昌鱼UreG基因特异性表达系统进化分析尿素酶

空时编码技术及在OFDM系统中的性能研究

多天线发射及多天线接收(MIMO)技术和正交频分复用(OFDM)技术属于第四代移动通信系统(4G)的关键技术,MIMO中的核心技术是空时编码技术,本课题针对空时分组编码(STBC)技术以及

学位

4G移动通信空时编码技术信道编码OFDM技术空时分组编码

市政土建结构工程的安全性及措施研究

本文通过对荣华二采区10

期刊

NC在医院信息系统中的应用研究

NC(Network Computer),是网络计算机的简称,也称之为网络终端机,是一种完全依赖于现代网络的终端设备~[1]。近年来,我国在信息技术领域有很大的进步,已经成功开发了“方舟”

学位

网络计算机查房系统嵌入式Linux无线局域网

基于VoWLAN系统的移动IP快速切换算法

目前，随着无线网络通信技术的不断发展，用户对移动数据业务的需求越来越大。移动IP协议作为一种移动管理标准，使移动终端可以在不改变IP地址的情况下支持漫游，满足了移动业务的需

学位

移动IP协议快速切换改进算法部分缓存算法链路层辅助网络层

德州夜景

请下载后查看，本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.

期刊

德州夜景

分枝犁头霉热稳定α-半乳糖苷酶的基因克隆和生化鉴定

α-半乳糖苷酶(α-Galactosidase，EC3.2.1.22)，也称蜜二糖酶，是一类能够催化水解末端含α-1，6-半乳糖苷键的酶类，包括线形和分支寡糖，多糖以及人工合成的底物，如蜜二糖、棉子糖、水

学位

分枝犁头霉热稳定α半乳糖苷酶基因克隆酶性质

多类型数字对象元数据管理中资源定制和元数据质量控制的设计与实现

本文是在上述“科技部子项目”背景下，在分析总结现有研究成果的基础上，以科技部子项目需求为基础，针对十一种元数据标准的特点以及系统可扩展性和元数据互操作性等要求，兼顾图书

学位

元数据管理资源定制质量控制模型联合著录

基于数据增强的汉语词表和语言模型自适应技术

与本文相关的学术论文