论文部分内容阅读
语音转换技术指的是,将一个人(源说话人)所说的一段语音,经过算法的自动修改,使其听起来像另一个人(目标说话人)所说的一样,同时保持这段语音的内容不变。本文在对语音转换基本理论进行了研究之后,提出了基于稀疏非负矩阵分解(Sparse representation Nonnegative Matrix Factorization,SNMF)的语音转换方法。然后在CMU ARCTIC语料库的基础上,将所提的SNMF方法与目前公认的基于ML-GMM(Maximum Likelihood Gaussian Mixture Model)的语音转换方法进行了比较,在主观听觉方面,该方法的转换性能与ML-GMM相当。并且在有限训练数据的情况下,将SNMF语音转换方法与ML-GMM方法一起进行对比实验。结果显示SNMF在确认度方面超过72%,而ML-GMM只有不到28%。同时,SNMF的主观听觉质量标准MOS为2.6,而ML-GMM的为1.8。相比之下,SNMF有更好的确认度和主观听觉质量。为了进一步提升SNMF语音转换系统的性能,降低其频谱失真度,本文对SNMF提出了两点改进方案。其一,考虑到语音信号具有既复杂多变又普遍相似的特点,为了提高非负矩阵分解对信号潜在特征的挖掘能力,本文引入了kmeans聚类算法,得到kmeansSNMF语音转换方法。该方法先对训练数据进行聚类,然后再在每一类里进行SNMF语音转换。实验证明,该方案极大的降低了SNMF的频谱失真度,并使得SNMF语音方法能够更加有效的利用大量训练数据。其二,考虑到帧间相关性在语音信号处理领域有非常重要的作用,本文引入了合成帧的概念,将前后连续的三帧组合成一个超帧,从而在kmeans SNMF的基础上引入了帧间相关性。实验结果表明,该方案进一步降低了频谱失真度,并且改善了转换语音的自然度,提高了主观听觉质量,其MOS值到达了3.78,优于经典的ML-GMM语音转换方法的3.70。受到SNMF语音转换方法的启发,在此基础上,本文应用联合非负矩阵分解的方法,同时对多个训练数据矩阵进行固定同一个激活矩阵的非负矩阵分解。基于该方法,本文实现了交叉语音转换系统。使得经典的一对一(源-目标)语音转换方法,变为多对一或者一对多的语音转换。