基于VQ模型和BP网络的高自然度语音转换

来源 :苏州大学 | 被引量 : 0次 | 上传用户:kevinsnower
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
说话人语音转换技术是把源说话人说的语音转换为像是目标说话人所说的语音的技术。说话人语音转换具有广泛的应用领域,比如文语转换(Text一to-Speech, TTS)系统、配音系统和保密通信等。本文提出了一种基于VQ模型与BP网络的高自然度语音转换方法。算法分为三个部分:前两部分用VQ模型实现了语音的谱包络及其激励的转换,第三部分采用BP算法实现语音的韵律转换规则建模。算法针对基音周期内残差波形的特点提出了循环互相关函数,有效地实现了残差波形聚类;针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音转换并得到高自然度合成语音。本文主要工作包括:(1)基于VQ模型实现了语音的谱包络转换。谱包络采用20阶LPC系数转换形成的线谱对频率系数LSF表示。相对于LPC参数,LSF具有更好的内插特性和量化特性。训练分别得到128个源语音的码向量和128个目标语音的码向量和由每一个源语音码向量到目标语音码向量的映射码书,映射码书就为目标语音向量的线性合成时的加权系数。转换后的语音的LSF系数更接近于目标说话人语音的LSF系数。(2)基于VQ模型实现了其激励的转换。对残差的转换分为两阶段,一是残差能量的转换,采用线性转换的方法;二是对残差波形的转换,采用的方法是基于VQ码本映射的模型。在残差波形转换中,定义了循环互相关函数,并以最大互相关值的相反数作为波形间的距离测度。转换后的语音残差信号更多的保留了目标说话人的信息。(3)采用BP算法实现语音的韵律变换规则建模。提取源说话人和目标说话人的相对基频曲线。用三层BP网络进行训练得到映射权值。在变换后的相对基频曲线加上目标语音的平均基频就得到转换后的基频曲线。算法针对汉语语音超音段发音特点进行韵律调整,有效实现了汉语语音变换并得到高自然度合成语音,实验表明是一种有效的汉语语音转换算法。
其他文献
随着社会经济的不断发展,城镇水平的不断提高。城镇人口数量越来越多,随处可见拥挤的人群,异常群体事件发生几率也随之变大。给人们的生命安全问题带来了巨大威胁。尤其是在
自动人脸识别技术涉及图像处理、模式识别、计算机视觉、神经网络等多门学科,是一个富有挑战性的课题。嵌入式智能监控的人脸识别研究是建立在嵌入式操作系统和嵌入式硬件平
TD-SCDMA综合了CDMA与TDD的技术优势,采用了联合检测和上行同步,智能天线等多种关键技术,是目前三个主流标准中频谱利用率最高的标准。现阶段针对TD-SCDMA系统的研究,有重要
签名是一种使用广泛的识别身份的生物特征,在社会生活中扮演着重要的角色。基于手写签名的身份鉴别在金融、军事、商业、通信、办公自动化、安全等领域有着广泛的应用前景。因
光网络中的波分复用技术(WDM)不仅满足了现有因特网中对于带宽的需求,也为将来可能在局域网和广域网中出现的具有巨大带宽需求的新应用提供支持。现在一条光纤链路利用波分复
基于雷达全天候、全天时、远距离和宽广观测带的特点以及易于从固定背景中区分运动目标的能力,雷达成像技术得到重视愈来愈多。在雷达成像领域,逆合成孔径雷达(Inverse Synth
近些年来,由于通讯网络的飞速发展,移动通信与实际应用的结合使得各种基于GSM/GPRS网络的无线监控系统成为当前远距离无线监控领域最为广泛的应用。另一方面,基于嵌入式概念
随着经济的发展,生活节奏的加快以及信息技术的进步,人们越来越多的借助高性能的移动手持设备来完成日常工作,目前手持设备处理性能有了很大的提高,其所能处理的数据量也越来越大
为了满足近岸海洋物理参数监测的需求,本文阐述了根据雷达图像进行海洋物理参数反演的算法发展历程和现状,分析了海洋物理参数监测雷达的性能指标要求,讨论并确定了与雷达相
随着互联网技术及应用的不断发展,企业和用户面临着越来越多的信息安全问题。近年来,特别是恶意代码在网络中的泛滥,对网络安全造成了很大的威胁,也造成了很大的经济损失。特