论文部分内容阅读
在现代通信系统中,语音是最基本、最重要的通信方式,通常是经过压缩以比特流的形式传输的,由于考虑到传输成本、效率、占用的物理信道、存储空间等因素,人们希望在保证好的语音质量的前提下,尽可能地压低语音编码的传输速率。这个语音信息压缩过程被称为语音编码。低速率语音编码已被广泛地应用在无线移动通信,VoIP(Voice over Internet Protocol)、语音信箱、保密通信和卫星通信中。随着下一代无线网络和Internet网络的发展,语音编码更多的应用和服务将会被提供。这使得近些年来人们对高质量的低速率语音编码有着持续增长的兴趣。因此,研究如何在低速率下获得具有通信质量的重建语音是语音编码中一个十分重要的课题。在高质量低速率的语音编码中,波形内插(Waveform Interpolation,WI)语音编码技术是极具潜力的编码方案之一。近些年许多学者对其进行了广泛的研究,本文在此基础上针对低速率WI语音编码模型和参数量化等关键技术进行了深入的研究,提出了一系列改进算法,并最终提出一种2kb/s低复杂度改进型波形内插(Low-complex Improved Waveform Interpolation,LIWI)语音编码方法。本文的主要贡献体现为如下几方面:一、为了减少WI模型的计算复杂度,提出了基于快速傅立叶变换、三次B样条插值和周期延拓技术的特征波形(Characteristic Waveform,CW)表示和对齐的快速算法,与原方法相比,计算量下降到原方法的1/5,同时也使得CW在插值和量化时更合理;二、为了严格保证SEW与REW的能量和为1,提出了一种特征波形的二次功率归一化算法,仅需要SEW能量就可以算出二者的能量比,并可应用到后续的REW的分类量化和CW合成中;三、为了对慢渐变波形(Slowly Evolving Waveform,SEW)幅度、快渐变波形(Rapidly Evolving Waveform,REW)幅度和特征波形功率进行有效量化,本文首先采用临界频带理论、分析合成技术、感觉加权技术以及预测式矢量量化技术,提出了一种基于基音周期分类的SEW分析合成预测式多码书量化方法;其次,本文根据基音和量化后SEW的功率信息对REW幅度进行分类,提出了一种基于离散余弦变换的REW矩阵多码书量化方法。这种SEW和REW幅度的多码书量化方法在牺牲了一些储存空间的条件下,有效解决了低比特率WI编码中比特分配不足的问题;再者,本文以语音能量的平稳过渡性为依据,提出了CW功率的分类量化方法,有效地改善了过渡段和起始段的功率量化精度。实验结果表明,这些量化方法明显地提高了重建语音的感性质量;四、根据SEW和REW的能量比对合成语音进行分类,提出了一种CW的动态加权合成方法,即SEW成分正比于能量比,REW成分反比于能量比。该方法在很大程度上解决了WI模型不太适合描述清音的问题,提高了合成语音的自然度;五、提出了基于Sigmoid函数的改进型基音内插方法,修正了原公式在某些特殊基音插值中出现的“病态”的插值结果;六、提出一种基于支持向量机的含噪语音的清/浊/静音的分类方法,这种方法可以在各种信噪比等级下将语音信号有效地分为清音、浊音和静音三类信号,并在此基础上开发出具有鲁棒性的语音激活检测算法;七、开发出一套低复杂度高质量的2kb/s的WI语音编码算法,并对其语音质量、算法时间复杂度和空间复杂度等参数做了评测。其中,诊断押韵测试(Diagnostic Rhyme Test,DRT)表明,重建语音的可懂度为优;平均意见分(Mean Opinion Score,MOS)测试及主观A/B测试表明2kb/s LIWI编码器的语音质量接近美国联邦标准FS1016的4.8kb/s码激励线性预测(Code Excited Linear Prediction, CELP)编码器,好于2.4kb/s混合激励线性预测(Mixed Excitation Linear Prediction, MELP)声码器;编解码算法的计算复杂度约为91.254MOPS,所需的存储容量大约为78K个浮点存储单元。