论文部分内容阅读
针对目前传统的特征波形(Characteristic Waveform,CW)分解方法很难在分解精度、计算复杂度、延时这三个指标上达到统一的缺点,本实验室已经有人提出利用非负矩阵分解(Nonnegative Matrix Factorization,NMF),来分解CW,并且产生了基于非负矩阵分解的波形内插(Waveform Inerpolation based on Nonnegative Matrix Factorization,NMF-WI)编码器,但是原NMF-WI模型存在收敛速度慢,基矩阵不够稀疏等缺点,模型还不够成熟,有一些待改进的地方。
本文在此基础上针对NMF-WI语音编码模型和相位合成等关键技术进行了深入的研究,提出了一系列改进算法,并最终提出了2kbps改进型NMF-WI语音编码方法。本文的改进主要体现为如下几方面:
一、采用基于K-L散度的NMF方法分解CW,与原方法相比,绝对误差下降了约1/3,计算复杂度也大大降低;
二、提出了一种收敛速度更快的基矢量Mel刻度分带初始化方法,得到的基矩阵更稀疏,冗余度更低,与原方法相比,更符合语音的感知特性;
三、为了降低计算复杂度,按照基音周期的统计分布将CW分为6类,在绝对误差没有降低的情况下,平均收敛速度提高了30%;
四、提出了两种分解阶数的计算方法,增强了原来实验方案的理论基础,得到了更加合理的分解阶数,降低了计算复杂度,而绝对误差没有明显提高;
五、提出了一种相位谱的混合自回归合成方法,将相位谱分解为随机相位和固定相位的加权和,与原NMF-WI模型采用固定相位合成的方法相比,有效改善了合成语音有很强蜂鸣声的缺点,提高了合成语音的自然度;
六、开发出一套改进型2kb/s NMF-WI低复杂度语音编码方法,在CW分解模块,复杂度下降了10MOPS,语音质量比原NMF-WI编码器高,与采用4bit散布矢量量化相位谱的2.16kb/sNMF-WI语音编码器的语音质量相当。