论文部分内容阅读
语音合成技术是实现人机语音交互通信的关键技术之一,它希望计算机具备像人一样的说话能力。能灵活调整合成单元的音段参数和超音段参数,同时确保合成语音的高自然度是目前面临的一个主要问题。
独立分量分析方法区别于传统的DFT、小波变换等分析方法,论文利用独立分量分析方法的优势,提取基元独立分量,分析其声学特征并结合语音合成展开探索性研究。
论文应用独立分量分析方法,研究汉语发音基元时域和频域独立分量信号可区分的声学特征,结合基元生物发声机理讨论各独立分量的含义;对比分析基元独立分量传统短时FFT谱包络与LPC声道谱包络、高阶wigner-Ville谱包络声学特性,研究分析在基元合成实验中的合成效果:通过基频曲线调整合成基元调域,对独立分量谱包络按共振峰特性加窗处理和调整各独立分量间混合权重来控制合成基元音色。
论文的主要工作如下:
1、论文使用独立分量分析方法,从时域提取各发音基元独立分量。对比分析了基元各时域独立分量间相关性大小、基频F0曲线、共振峰特性、F1-F2,F2-F3声学音位图等声学特征,发现基元各时域独立分量间可区分的特征。结合各发音基元的生物发声机理,声带的振动频率与基频对应,元音发音时舌位的高低与第一共振峰频率F1对应,舌位的前后与第二共振峰频率F2对应等,将基元各时域独立分量进行鉴别区分,赋予各独立分量确切的含义,如高基频分量,高舌位分量,前舌位分量等。
频域ICA分析中,获取了基元频谱包络的独立分量。对比分析了蕴含在基元各频谱独立分量中的共振峰特性和F1-F2,F2-F3声学音位图,找出基元各频谱独立分量间可区分特征,将基元各频谱独立分量分别区分为高舌位谱分量,前舌位谱分量等。
2、在时域ICA分析中,对同一发音基元各时域独立分量,提取了其传统短时FFT谱包络与LPC声道谱包络、高阶Wigner-Ville谱包络,对比分析了蕴含在三种频谱包络中的共振峰特性和谐波结构,发现三种频谱包络间的声学特征差别;对比分析了传统短时FFT谱包络与LPC声道谱包络、高阶Wigner-Ville谱包络在基元合成实验中的效果。
实验环节,应用STRAIGHT合成算法,基于各基元独立分量的基频和三种不同的频谱包络,完成了各发音基元时域独立分量合成和时域独立分量混合合成实验。基于各基元三种不同频谱包络的谱独立分量,完成了基于谱独立分量的基元合成和基于谱独立分量混合的基元合成实验。
实验结果表明,三种频谱包络有各自不同的声学表现,基元LPC声道谱包络表现出了较平缓的声道传输特性,共振峰结构较钝化,而WV谱包络拥有更加丰富的谐波特性,更尖锐的共振峰结构和更高的频率分辨率,信号的一些快速时变特征在WV谱包络上也有体现。从基元合成效果来看,WV谱合成基元清晰度可懂度较优,传统FFT谱合成效果次之。
3、论文针对各发音基元时域独立分量的谱包络按第一、二共振峰特性进行加窗处理,获取不同的音色表现。将不同特性的独立分量按不同的权值加权组合产生出音色可调控的合成语音,通过基频曲线调整合成基元的调域音高和情感特征。
论文实验总结得到了音色调整的规则1、规则2和规则3,用来调控合成语音的基频和频谱包络中共振峰特性。
实验结果显示,谱包络的加窗处理对音色的调整可控制在一个较满意的范围内,没有出现合成语音清晰度可懂度急剧下降的情况。经加权混合处理后的合成基元效果比音色相对单纯的各独立分量合成基元信号有更丰富的表现力,但音色的调整处理基于独立分量进行,对合成音质的影响会更细腻一些。合成基元清晰度可懂度经MOS评测,时域独立分量基元合成平均得分在4.5,时域独立分量谱加窗基元合成半均得分在4.53,时域独立分量加权混合基元合成平均得分在4.8左右。基于谱独立分量的基元合成平均得分在4.45,基于谱独立分量混合的基元合成平均得分在4.6左右。