论文部分内容阅读
随着语音信号处理技术的不断发展和人们对人工智能的不断追求,说话人语音转换技术成为了一个新的研究课题.说话人语音转换技术是把源说话人说的语音转换为象是目标说话人说的语音的技术.说话人语音转换具有广泛的应用领域,比如文语转换(Text—to—Speech,TTS)系统、配音系统和翻译系统等.该文提出了一种基于分段的说话人语音转换方法,这种方法适用于单语种和跨语种的说话人语音转换,该文主要工作包括:(1)在基于分段的说话人语音转换中,训练语句和转换语句需要进行切分.为了完成对语句的切分,该文采用隐马尔可夫模型的方法,利用HTK工具包分别实现了特定人语音切分系统和非特定人语音切分系统.(2)该文提出了一种基于分段的说话人语音转换方法.和以往的方法比较,这种基于分段的说话人语音转换不要求源说话人和目标说话人是同样的训练语句,所以同时适用于单语种和跨语种的说话人语音转换.在这种基于分段的说话人语音转换中,该文采用"pitch+mel倒谱+MLSA滤波器"语音编码器,提出了一种基于修改mel倒谱和基音周期参数的说话人语音转换方法.在对频谱的转换中,先对每段基本语音的mel倒谱参数训练高斯混合模型,求出一个转换函数,然后用转换函数对mel倒谱参数进行转换.而基音周期的转换则采用一个全局的转换公式,对基音周期的数值和范围进行修改.(3)该文运用所提出的基于分段的说话人语音转换方法实现了单语种(英语)说话人的转换.在单语种(英语)说话人语音转换中,采用的语音段库是41个单音素库(包括一个静音).通过分析元音转换前后的FFT频谱,该文得出结论:转换后的语音的FFT频谱更接近于目标说话人语音的FFT频谱.而且,通过主观听觉判断,转换后的语音更象是目标说话人的语音.因此说明这种基于分段的单语种(英语)转换是有效的.(4)为了实现跨语种(中英)说话人语音转换,该文研究了中英文的语言特点,特别是两种语言的单音素之间的异同点.通过比较,发现英文中大部分英语音素可以在中文中找到相对应的音素,有小部分的英文音素找不到中文对应的音素.为了实现这小部分中英文不对应的音素的转换,该文提出了二叉树的方法来进行跨语种说话人语音转换.实践表明,二叉树的方法可以解决中英文不对应的音素的转换问题,跨语种(中英)的说话人语音转换得以实现.