基于分段的说话人语音转换技术的研究

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:kim5618
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音信号处理技术的不断发展和人们对人工智能的不断追求,说话人语音转换技术成为了一个新的研究课题.说话人语音转换技术是把源说话人说的语音转换为象是目标说话人说的语音的技术.说话人语音转换具有广泛的应用领域,比如文语转换(Text—to—Speech,TTS)系统、配音系统和翻译系统等.该文提出了一种基于分段的说话人语音转换方法,这种方法适用于单语种和跨语种的说话人语音转换,该文主要工作包括:(1)在基于分段的说话人语音转换中,训练语句和转换语句需要进行切分.为了完成对语句的切分,该文采用隐马尔可夫模型的方法,利用HTK工具包分别实现了特定人语音切分系统和非特定人语音切分系统.(2)该文提出了一种基于分段的说话人语音转换方法.和以往的方法比较,这种基于分段的说话人语音转换不要求源说话人和目标说话人是同样的训练语句,所以同时适用于单语种和跨语种的说话人语音转换.在这种基于分段的说话人语音转换中,该文采用"pitch+mel倒谱+MLSA滤波器"语音编码器,提出了一种基于修改mel倒谱和基音周期参数的说话人语音转换方法.在对频谱的转换中,先对每段基本语音的mel倒谱参数训练高斯混合模型,求出一个转换函数,然后用转换函数对mel倒谱参数进行转换.而基音周期的转换则采用一个全局的转换公式,对基音周期的数值和范围进行修改.(3)该文运用所提出的基于分段的说话人语音转换方法实现了单语种(英语)说话人的转换.在单语种(英语)说话人语音转换中,采用的语音段库是41个单音素库(包括一个静音).通过分析元音转换前后的FFT频谱,该文得出结论:转换后的语音的FFT频谱更接近于目标说话人语音的FFT频谱.而且,通过主观听觉判断,转换后的语音更象是目标说话人的语音.因此说明这种基于分段的单语种(英语)转换是有效的.(4)为了实现跨语种(中英)说话人语音转换,该文研究了中英文的语言特点,特别是两种语言的单音素之间的异同点.通过比较,发现英文中大部分英语音素可以在中文中找到相对应的音素,有小部分的英文音素找不到中文对应的音素.为了实现这小部分中英文不对应的音素的转换,该文提出了二叉树的方法来进行跨语种说话人语音转换.实践表明,二叉树的方法可以解决中英文不对应的音素的转换问题,跨语种(中英)的说话人语音转换得以实现.
其他文献
期刊
本文主要包含三方面的内容:阵列天线、支持向量机以及两者结合应用研究。 支持向量机是由Vapnik等人提出的小样本统计理论——统计学习理论发展而来的一种新的通用学习算法
期刊
在当今飞速发展的信息时代,各组织机构对计算机网络的高度依赖性使得网络运行的可靠性变得至关重要。因此,对网络的管理提出了更高的要求。网络拓扑发现是网络管理中最基本的一
随着网络业务量的爆炸性增长以及高性能光网络设备(如光交叉连接器OXC、光分插赋予器OADM)等的出现,波分复用技术成为下一代骨干网络的核心技术。网络业务不但对网络带宽产生
光学相控阵技术由于其技术的先进性,被越来越多的应用在激光雷达、自适应光学、光学模式识别及光通信新技术等领域,其中以液晶为材料的光学相控阵作为相控阵技术之一,具有良好
在光阴流逝的长河里,2007年已成为历史.医疗卫生行业作为社会关注度较高的领域,在过去的一年里为我们留下了多少欲说还休的话题?
期刊
期刊
中国医药保健品进出口商会(以下简称“医保商会”)与美国艾美仕市场调研与咨询公司(以下简称“IMS公司”)于2007年12月10日联合发布了“2007~2008年中国与世界医药市场分析报