基于数据增强的汉语词表和语言模型自适应技术

来源 :中国科学院声学研究所 | 被引量 : 0次 | 上传用户:bole456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的基于MAP的语言模型自适应技术虽然在解决训练语料的数据稀疏问题上取得了很大的成功,然而该方法的前提是要求有一定量的主题相关自适应语料,然而在某些语音识别应用中,即使是少量的主题相关语料都很难得到,此时MAP方法也无法给出好的结果.在此背景下,本论文主要研究在主题相关自适应语料极少的情况下,利用潜在语义分析技术对该语料文本进行数据增强的方法,其优点在于可以使自适应后的语言模型有能力预测并校正在训练语料中甚至不存在的词汇的出现概率.本论文主要讨论了基于词的统计语言模型.在汉语语言中,字与字、词与词是连写的,之间没有空格分隔,词在句中也没有显式的标记,而且词语的定义比较灵活,导致无法直接将已有的词表优化、模型自适应等技术直接应用到汉语连续语音识别当中.因而本文同时也着重研究了汉语文本语料的预切分、主题领域相关的汉语词表增强和优化以及汉语连续语音识别词表的优化等问题.
其他文献
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
本文在JPEG2000标准的基础上,对图像压缩比,压缩速度做了一些尝试研究。全文分为两部分: 第一部分,位平面并行的编码算法。。通过初始化过程,给每一个位平面构造了各自的上下文
在动物的进化历程中,文昌鱼是介于无脊椎动物与脊椎动物之间的过渡类型。利用分子生物学手段,研究文昌鱼有关基因的结构、进化和表达,不仅可为我们从分子水平上解开脊椎动物起源
多天线发射及多天线接收(MIMO)技术和正交频分复用(OFDM)技术属于第四代移动通信系统(4G)的关键技术,MIMO中的核心技术是空时编码技术,本课题针对空时分组编码(STBC)技术以及
本文通过对荣华二采区10
期刊
NC(Network Computer),是网络计算机的简称,也称之为网络终端机,是一种完全依赖于现代网络的终端设备~[1]。近年来,我国在信息技术领域有很大的进步,已经成功开发了“方舟”
目前,随着无线网络通信技术的不断发展,用户对移动数据业务的需求越来越大。移动IP协议作为一种移动管理标准,使移动终端可以在不改变IP地址的情况下支持漫游,满足了移动业务的需
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
α-半乳糖苷酶(α-Galactosidase,EC3.2.1.22),也称蜜二糖酶,是一类能够催化水解末端含α-1,6-半乳糖苷键的酶类,包括线形和分支寡糖,多糖以及人工合成的底物,如蜜二糖、棉子糖、水
本文是在上述“科技部子项目”背景下,在分析总结现有研究成果的基础上,以科技部子项目需求为基础,针对十一种元数据标准的特点以及系统可扩展性和元数据互操作性等要求,兼顾图书