论文部分内容阅读
语音转换是指在不改变源说话人语音的语义的情况下,通过改变其语音的个性特征,使转换后的语音具有目标说话人的个性特征,从而使得转换后的语音听起来与目标说话人的语音很像。年龄语音转换是语音转换中的一种,是指改变说话人语音的年龄信息,使之听起来像该说话人目标年龄时的语音。本文重点研究基于说话人语音特征的个性化年龄语音转换问题,实际构建了由说话人语音特征参数驱动的年龄语音转换系统。论文的主要工作和创新点如下:(1)利用从互联网上搜集到的一位男性和一位女性在不同年龄段录制的语料,建立了一个小型的年龄语音数据库。其中,男性语料共176句,涵盖了该男性12岁、18岁和23岁三个年龄段的录制语音;女性语音资料共85句,包括该女性在12岁和20岁两个年龄段录制的语音。每句语音的长度在5-10s之间。(2)针对基于线性预测编码(LPC)的语音共振峰提取算法不能很好处理合并峰和虚假峰,导致所提取的共振峰频率欠准确的问题,提出了一种改进的极点交叉线性预测算法。这个算法是通过修改共振峰极点半径,达到减小由极点交叉引起的误差,从而提高共振峰频率估计的准确度的目的。(3)众所周知,声道长度的不同是导致同一说话人不同年龄段的语音听起来存在差异的一个重要因素。为了保证测试语音经年龄语音转换后的输出与目标年龄段的语音听起来很像,声道长度对齐是必不可少的技术。本文分析研究了声道长度对齐技术中的频率转换因子估计和频率弯折函数选取两个核心问题,构建了用于年龄语音转换目的的频谱转换模型。在此基础上,建立了多参数驱动的年龄语音转换系统,取得了较好的个性化特征保持的年龄语音转换效果。