论文部分内容阅读
语音转换是将源说话人的声音转换为目标说话人的声音,语音内容保持不变,转换的只是说话人的个性化特征。语音转换研究是当前语音信号处理研究中继语音识别技术、说话人识别技术及语音合成技术之后又一新的研究领域,具有重要的应用价值。本文基于径向基的人工神经网络以及改进的高斯模型,对语音转换进行了研究,主要开展了以下方面的工作:
在研究过程中,将特征参数重点放在频谱包络上,主要是对频谱包络进行转换。对选取的语音信号进行预处理、时域分析以及线性预测分析,采用几种信号处理方法对语音信号特征参数进行提取,并通过MATLAB编程,进行实验仿真。由于特征参数向量的序列参数不同,本文使用动态时间规整算法对特征参数向量序列进行对齐,然后使用径向基神经网络和改进的高斯模型这两种方法对语音信号进行转换。在径向基神经网络中引用减法聚类算法对隐含层进行学习,而输出层则采用粒子群优化算法进行学习。在高斯模型中进行基于后验概率的加权线性转换,并进行平滑处理。最后使用STRAIGHT模型进行语音合成,并做出对比。实验结果表明,两种转换算法的转换效果均良好。
在研究过程中,将特征参数重点放在频谱包络上,主要是对频谱包络进行转换。对选取的语音信号进行预处理、时域分析以及线性预测分析,采用几种信号处理方法对语音信号特征参数进行提取,并通过MATLAB编程,进行实验仿真。由于特征参数向量的序列参数不同,本文使用动态时间规整算法对特征参数向量序列进行对齐,然后使用径向基神经网络和改进的高斯模型这两种方法对语音信号进行转换。在径向基神经网络中引用减法聚类算法对隐含层进行学习,而输出层则采用粒子群优化算法进行学习。在高斯模型中进行基于后验概率的加权线性转换,并进行平滑处理。最后使用STRAIGHT模型进行语音合成,并做出对比。实验结果表明,两种转换算法的转换效果均良好。