跨语种声学模型建模技术

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhangyangyingzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前传统语音识别系统的搭建,依赖大量语种相关的数据资源,对于语音识别声学建模来说,就是需要依赖大量有文本标注的语音数据,来取得良好的识别效果。然而,全球近7000个语种中只有很少一部分语种可以提供大量所需数据资源。已有的语音识别系统往往针对使用人口众多的语种,其数据资源也相对容易获取,而对于一个新语种来说,获取充分的数据资源,往往是一件十分耗时耗力的工作。  在全球化发展趋势下,出于政治、经济、文化的需求,为某个新语种搭建语音识别系统的需求日益增长,而依赖大量数据的传统建模方法就不适用于为诸多新语种进行声学建模,而需要探索新的旨在为任意目标新语种进行声学建模的方法。在本文中,研究了通过使用其它语种积累的大量语音数据,结合少量目标新语种的语音数据,共同为目标新语种进行声学建模的方法,称为跨语种声学模型建模技术,其中主要包括如下研究工作和创新点:  1.以跨语种方式为目标新语种(日语)搭建了语音识别系统,给出了短时间内快速为目标新语种进行声学建模的流程。通过将其它语种大量的语音数据,分别在音素级别、模型级别进行多语种数据共享,然后使用少量的目标新语种数据进行自适应模型调整,可以快速、方便地为新语种进行声学建模,并且相比传统建模方法获得显著的识别效果改善。在本文以日语为目标新语种的实验中,在只使用5小时自采日语数据时,相比传统单语种HMM-DNN(Hidden Markov Model-Deep Neural Network)系统,最终降低了相对28.1%的字错误率。  2.在音素级别的跨语种声学建模中,通过统一音素集将各语种数据在音素级别进行共享,然后使用传统的HMM-GMM(Hidden Markov Model-Gaussian Mixture Model)建模方法,训练得到单音素、三音素的多语种HMM-GMM模型。然后,在为目标新语种建模中,针对存在的单音素、三音素层面的音素不匹配问题:在单音素层面,我们基于国际音标集的发音特征进行了知识驱动地音素映射,将未出现音素映射到相近的其他语种音素,如此可以使用多语种bootstrapping技术完成目标新语种单音素HMM-GMM的初始化,在自采日语数据集上,获得相对5.8%的错误率降低;在三音素层面,我们使用目标语种数据对多语种数据构建的音素决策树进行自适应调整,使之更符合新语种中三音素的数据分布情况,从而获得更好的跨语种建模效果,相比传统的单语种HMM-GMM建模方法,在日语RWCP数据集上降低了相对11.4%的错误率。  3.在模型级别的跨语种声学建模中,通过共享隐含层的多语种深度神经网络模型(shared-hidden-layer multilingual DNN,SHL-MDNN),使用多语种数据共同训练特征非线性变换层,来学习各语种音素发音的共性,然后将共享的DNN隐含层参数,用于为目标新语种DNN做初始化,并使用少量目标语种数据进行参数调整,从而实现模型参数级别的跨语种声学建模。在本文基于SHL-MDNN的研究中,我们针对跨语种建模中常见的三音素状态训练数据分布不均的问题,提出了使用“概率采样”方法调整DNN训练数据分布;并针对目标新语种建模中,常见的数据缺乏标注的情况,进行了DNN半监督训练的研究。将SHL-MDNN、概率采样、半监督训练结合,使用5小时日语自采数据,相比传统的HMM-DNN系统,将字错误率从71.0%降低到51.0%,达到工程实用的效果。  4.在为目标新语种进行语音识别系统搭建中,发音词典的构建是必不可缺的步骤,其极大影响最终的识别效果。发音词典不仅用于识别解码中,在声学模型的鉴别性训练中也需要。本文,我们通过发音模型对发音词典中各发音的发音概率进行建模,并将发音模型的训练融入到声学模型的鉴别性训练中,和声学模型一起迭代更新。使用发音模型中的发音概率信息,可以筛选词典中的候选发音来优化发音词典,还可以在解码识别中利用发音概率信息辅助解码,在日语自采数据集上,获得了相对1.1%的字错误率降低。
其他文献
本文对访问控制技术和规则引擎技术作了深入研究,并在此基础上利用规则引擎技术实现了基于规则引擎的访问控制系统,针对访问控制领域中规则的特点,设计并实现了一个高效的基于规
现代遥感技术飞速发展,对地观测的方式不断丰富,传感器种类也不断增多,导致所获取的多源遥感数据急剧增加。现在的遥感数据具有海量、多源、多时相、多分辨率和多光谱等特性。如
人脸识别技术是利用计算机对人脸图像进行分析和理解,从而完成人脸检测,身份认证等一系列工作的技术,是近年来计算机图像处理、模式识别、人工智能等领域内最为活跃的研究课题之
IEEE802.15.4标准为ZigBee技术制定介质访问控制(MAC)协议和物理层(PHY)规范。IEEE802.15.4协议以其低成本、低能耗、低速率、低复杂度、组网灵活等特点适合作为无线传感器网
数据形成器是星载合成孔径雷达(SAR)系统接收通道的重要分机,在监控计算机的控制下实现对图像视频信号的数据处理。SAR系统的数据率通常可达到每秒数百兆比特,必须经过数据压缩才
P2P多媒体业务在互联网上迅猛发展并取得极大成功。与此同时,移动网络正处于向全IP网络的演进过程中,在移动IP网络上开展P2P多媒体业务既是机遇又是挑战。IP多媒体核心子系统(I
随着人们生活水平的不断提高,对空调的数量和质量的要求都在不断提高,变频空调由于其性能优异,节省能源等特点已经成为空调企业的发展方向。变频空调的优点在启动电流小,工作噪音
目的:许多膜蛋白(包括酶,细胞粘附因子,受体等)依靠糖基磷脂酰肌醇锚定于细胞质膜表面,又称GPI锚定蛋白。在细胞表面,GPI锚定蛋白常与鞘脂(包括鞘糖脂和鞘磷脂),胆固醇等聚集在一起
本文阐述了跳频手机的总体设计方案,并基于OMAP5912的硬件系统和MontaVista嵌入式实时操作系统建立了实时开发环境,给出了该环境下应用程序的基本开发方法;重点介绍了跳频系统的
随着技术的进步,性能优异的嵌入式系统得到了广泛的应用,使得越来越多的便携式终端比如手机、PDA等都具备了视频播放的功能,但是,由于便携多媒体播放器的开放性较差,可以播放的视