频率弯折对基于HMM TTS的说话人转换的改进

来源 :南开大学 | 被引量 : 0次 | 上传用户:shao_xiao_dong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
一个可训练的语音合成系统(TTS,TextToSpeech)可以合成高质量的语音,来满足一些一般的应用需求。然而,在一些变化比较多的应用中,我们希望能够定制更多个性化的声音。所以如何利用很有限的训练数据来得到一个新的声音,并且保持原始语音的自然度和可理解程度,成为了一个新的挑战。说话人语音转换可以用一种自然的,合乎逻辑的方法来有效的改变一个说话人的声音。基于隐马尔可夫模型(HMM,HiddenMarkovModel)语音合成系统中的说话人转换通常又叫做说话人自适应。   说话人声道长度规整(VTLN,VocalTractLengthNormalization)已经被成功的运用到语音识别中,用来对谱的特征做规整。VTLN通常用频率弯折(例如双线性转换)来实现。在本篇论文中,我们用源说话人和目标说话人的五个长元音的前四个共振峰频率值映射来完成频率弯折。我们构造的这个频率弯折函数将与最大似然线性回归(MLLR,MaximumLikelihoodLinearRegression)算法相结合,来提升TTS中说话人自适应的性能。这个公式用来对原始说话人频谱的频率值向目标说话人频谱的频率值做映射,实现对源频谱的弯折。我们从弯折后的谱中提取参数,用来训练源说话人的模型,这个模型会与目标说话人更加接近。最后我们会用MLLR算法来对模型做自适应,以得到目标说话人的模型,从而可以合成目标说话人的声音。   试验中,我们源说话人的训练数据为4000句,目标说话人的自适应数据为100句,每个说话人有10句话用来做测试。客观评估标准为模型合成的谱和目标谱之间的距离,主观评测为AB选择和ABX相似度测试,用来对效果做进一步的确认。实验结果证明频率弯折可以提高说话人自适应系统的性能,尤其是在自适应数据较少的情况下。
其他文献
分类是机器学习的主要任务之一。生活中的一些决策问题便可以看作分类问题,比如与人们健康紧密相关的疾病诊断。分类算法将会从训练样本中训练合适的模型从而给出更加智能的
工作流的概念起源于生产组织与办公自动化领域。工作流就是工作流程的计算模型,即将工作流程中的工作任务前后组织在一起的逻辑和规则,在计算机中以恰当的模型进行表示并对其实
随着信息技术的不断发展,抄袭正变得越来越容易和难以防范。在程序设计类课程作业和在线测试的考评中,学生相互抄袭的现象也普遍存在。澳大利亚蒙纳什(Monash)大学对其学生中
互联网的快速发展深入影响着人们的日常生活。其中,微博作为近年来热门的实时信息分享平台,拥有众多的使用者;每天都会产生大量的微博数据。对微博数据进行有效的监控和管理
利用Internet上的空闲计算资源来解决大规模分布式计算是网格技术的一个重要研究方向。但是由于互联网的动态性,以及空闲资源所属权互相独立,造成了网格系统的异构性和动态性
学位
随着保护公共安全的视频监控系统与个人终端视频采集设备的普及,视频侵犯个人隐私的事件越来越多,互联网视频安全问题也愈加的严重。视频信息安全成为目前研究的热点和急需解决
学位
Web服务作为一种新兴的Web应用模式,是Web上数据和信息集成的有效机制。它被定义为使用标准的技术与其他服务进行交互的软件模块和自描述的应用,并且是一种自适应、面向互操作
随着网络技术的发展,企业系统管理环境发生了很大变化。系统管理的概念已经不局限于过去简单的网络设备管理,还包括对服务器、中间件甚至计算机上运行的应用软件的管理。被管
随着网络技术的不断发展,越来越多的企业使用工作流技术来提高企业的运行效率,目前工作流技术已经成为流程定义和管理的核心技术,具有广阔的发展空间。工作流管理系统是完成
邮件在人类通信上的地位越来越重要了,在给人们带来便利的同时,也使得人们不得不花费大量时间来处理大量的邮件。随着邮件的普及,人们在处理邮件上花费的人力和财力就越来越