论文部分内容阅读
DOI:10.13800/j.cnki.xakjdxxb.2017.05
21文章编号: 1672-9315(2017)05-0736-06
摘要:在语音编码中线谱频率的量化编码多依赖于矢量量化技术。文中在分析经典的LBG多级矢量量化算法优缺点的基础上,结合m进制搜索代替全搜索以及瞬时联合调整各级码本的技术并引入自回归预测模型,实现了自回归预测多级联合矢量量化码本设计。并与窄带自适应多速率语音编码器AMR和MELP语音编码系统中线谱频率矢量量化进行了对比,效果良好。
关键词:线谱频率;矢量量化;码本设计;自回归预测模型;性能测试中图分类号:TN 912.32文献标志码: A
Technology of multistage vector quantization with
autoregressive prediction for linear spectrum frequency
CHEN Hui,ZHANG Boxia
(College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)Abstract:In the speech coding,the quantization coding of the linear spectrum frequency(LSF)is mostly dependent on the vector quantization technique.Based on the analysis of the advantages and disadvantages of the classical LBG multistage vector quantization algorithm,this paper combines the msearch instead of the full search and the instantaneous joint adjustment of the codebook and introduces the autoregressive prediction model to realize the design of autoregressive prediction multistage joint vector quantitative codebook.Compared with the vector quantization of LSF in the narrowband AMR and MELP speech coding systems,the effect is better.Key words:linear spectrum frequency;vector quantization;design of codebook;autoregressive predictive model;performance testing
0引言語音编码是将模拟的语音信号转化成数字信号,达到降低传输码率并进行数字传输的目的,传输码率越低,合成的语音质量越好,但较低的传输码率则需要较高的算法延迟时间,也使计算复杂度大大提高。根据语音信号产生的数字模型,语音信号可以用一组线性预测系数(Linear Predictive Coding,LPC)和线性预测残差信号来表示。由于LPC系数能较准确表达语音信号的短时频谱幅度,将其用于语音编码,可在很大程度上降低传输码率,但缺点是重构语音自然度低,对环境噪声敏感,因此,LPC系数量化的准确性对语音编码质量至关重要。通常LPC系数不宜进行量化编码,多需转换成容易编码的线谱频率(Line Spectrum Frequency,LSF)。线谱频率表征谱包络信息,其量化编码多依赖于矢量量化技术,并采用多种编码矢量量化算法的相互补充和系统协调,才能在降低语音编码速率的同时提高语音质量。在语音编码技术中,由于相邻的线谱频率矢量之间存在着相关性,往往不是直接进行矢量量化,而是首先通过预测模型获得预测残差矢量,再进行相应矢量量化,进一步提高线谱频率矢量的量化性能,因此,模型的选取直接影响着量化性能、算法复杂度和运算时间等性能。目前,国内外常用的预测模型主要有一阶或者多阶滑动平均(Moving Average,MA)预测模型,帧间帧内预测模型等。文中在充分考虑预测模型复杂度和性能的基础上,提出了采用自回归预测模型,结合其他多级矢量量化方法,对线谱频率进行矢量量化并与语音标准MELP[1-2]中去均值无预测模型矢量量化和AMR[3]中一阶MA预测模型矢量量化效果进行测试对比。结果表明,自回归预测多级矢量量化算法实现起来更加简单,量化性能也更加优秀。
1
基于LBG的顺序多级矢量量化码本设计
LBG矢量量化算法[4-5]是标量量化LloydMax算法经过从一维标量到多维矢量扩展出的算法。LBG算法原理是使用最邻近准则,将训练矢量进行胞腔划分,再求得每个胞腔的质心作为最佳码字,运用循环迭代计算直至收敛,最终得到胞腔的最佳划分和最优码本。其不足在于:对于初始码本的选择要求较高,若初始码本代表性差,会导致算法收敛慢并易于收敛到局部最优点,码本性能不是最佳。常用初始码本选择算法中,公认的分裂法产生的初始码本性能要优于随机法选择的码本性能。另外,设计过程中往往需要占据大量的存储空间,计算复杂度也较高。通常为了达到一定的量化性能要求,码本存储量会不断地增大,码本设计所需要的时间也会成倍增加,所以多级矢量量化的引入是一种折中的方法,解决了时间复杂度和性能的平衡。文中实现的顺序多级矢量量化算法[6]是以分裂法产生的初始码本为基础。其码本设计简单的框图如图1所示。顺序多级矢量量化码本算法的基本步骤是:首先,将输入的训练矢量序列送入LBG码本生成算法,经过循环迭代产生第一级码本,并将所有输入的训练矢量划分最邻近的胞腔,胞腔质心作为码字。其次,计算出每个训练矢量与所对应的划分的胞腔质心的残差矢量,将此残差矢量序列再次送入LBG码本生成算法,循环迭代生成第二级码本。依次类推,直至生成所需要的最后一级码本。 但实际情况是,对于维度有限的信源输入矢量,顺序多级矢量量化系统会因码本设计时的顺序性,导致量化时搜索码本中的码字也往往是一级一级往后顺序搜索,相比全搜索方式得到的码字重构的矢量具有明显局限性,所以顺序多级矢量量化系统生成的码本性能不是最优的。研究表明:m进制树搜索算法[7-8]可以相比顺序搜索算法更接近于全搜索的性能;瞬时联合调整算法[9-11]也可以在一定程度上改进码字顺序搜索过程。所以,采用m进制树搜索算法和瞬时联合调整算法在很大程度上可以提高码本性能。
2m进制树搜索算法相对于受限制的码本结构,采用全搜索算法可达到最佳效果,但是对于尺寸较大的码本,采用全搜索算法是非常不现实的,因为全搜索算法具有非常大的算法复杂度。大量的实践证明:m进制搜索算法的运用,能实现在较低的计算复杂度情况下,其码本的性能可以近似达到全搜索算法的性能。图2是4级m进制树搜索算法原理框图。显然,m进制树搜索算法是介于顺序搜索算法和全搜索算法之间折中的一种搜索算法。当m=1时,m进制树搜索算法就退化为顺序搜索算法。当m接近于各级码本容量值时,m进制树搜索算法就无限接近于全搜索算法。但是m值越大,算法计算复杂度也就呈指数上升。因此,在采用m进制树搜索算法时,m的值必须大于或等于8才具有明显的效果。文中m取值等于8.
3瞬时联合调整算法顺序逐级的训练优化码本算法缺点在于优化当前级码本的时候,未能考慮后面级码本中的码字对量化结果的影响,也就是说默认了后面级码本全为空或者不存在,把当前级作为最后一级来进行优化,这样就导致了优化后的码本整体不是最优的,容易陷入局部最优解。瞬时联合调整算法是基于在每一级循环搜索中,瞬时联合优化所有级的码字,所谓瞬时,就是考虑一瞬间的情况下,在优化当前级码本的时候,假定其他级码本和每个训练矢量量化时选择的其他级码本中的码字都保持不变,去优化当前码本,充分考虑到后面各级码本中可能存在一个具有代表性的码字会多次在矢量被重构的时候选取到,所以,瞬时联合调整算法将各级码本作为一个整体进行联合优化,配合m进制搜索算法使得码本的量化性能有明显的提高。
4自回归预测矢量量化模型对于AMR语音编码系统,预测模型采用的是一阶MA预测模型,对得到的预测残差信号采用分裂矢量量化方法。一阶MA预测模型实现起来简单,计算量也更加小,但是AMR语音编码系统的一阶MA预测模型采用的固定系数的预测器,对于LSF矢量序列的预测效果不佳,会导致得到的预测残差序列的动态范围更大,导致后续的矢量量化性能不高。对于MELP语音编码系统,线谱频率的矢量量化未采用预测模型,只有简单的去均值操作,自回归预测模型的设计就是基于AMR语音编码系统中的一阶MA预测模型和MELP语音编码系统中的去均值操作二者优点相结合的设计理念。由于LSF系数矢量具有有序性的特性,使得短时内的连续的LSF矢量之间具有帧间帧内相关性[12-14]。自回归预测模型可以有效的对LSF矢量进行去均值操作,去除LSF矢量之间的相关性,得到分布更加集中的残差矢量序列,可以提高所设计的码本的量化性能和语音质量。其基本原理是输入矢量进行去均值操作后,对残差矢量进行多级矢量量化,得到重构的残差矢量再加上当前均值恢复出重构矢量,再利用重构矢量和当前的均值矢量一起计算调整均值矢量用于下一帧的去均值操作。原理上还是预测操作,当前均值矢量可看作预测矢量,可见当前帧的预测矢量不仅与前一帧的预测矢量有关,还有前一帧的重构矢量有关。实际的编解码器中,使用当前帧重构矢量和当前的均值矢量来更新计算出下一帧的均值矢量。编解码器中去均值残差矢量计算式如下
lsf_res(i)=lsf(i)-avg(i),i=1,…,10,(1)
其中lsf_res为去均值残差矢量;lsf为原始一帧输入矢量;avg为当前帧的均值矢量。重构矢量rec计算公式如下
rec(i)=lsf_res_rec(i)+avg(i),
(2)
其中,lsf_res_rec为去均值残差矢量的量化矢量。之后均值矢量的更新公式如下
avgn+1(i)=(1-q)×recn(i)+q×avgn(i),i=1,…,10.
(3)
其中q介于0到1之间,从均值矢量的更新公式(3)可以看出,当q=0时,则均值矢量就等于前一帧的重构矢量,所以预测类型退化为一阶差分预测;当q=1时,则均值矢量不会改变,所以相当于没有预测操作,即简单的去均值操作,相当于MELP语音系统中对线谱频率矢量量化前的预操作。所以,选择合适的q值,可以得到不同的预测性能。经测试,一般取q为0.875为最佳。
图3,4,5是自回归预测模型的性能分析结果。对比图4和图5,很明显自回归预测后得到的LSF残差矢量比原始LSF矢量去均值后的矢量的分布更加集中,动态范围更小,自回归预测后的LSF残差矢量序列的方差只是LSF原始序列方差的三分之一。由此可见,自回归预测模型是一种介于一阶差分预测和无预测模型的一种折中,既通过预测来减小了待量化矢量的动态范围,又避免和改进了一阶差分或者MA预测器对于LSF矢量序列可能产生的误差叠加,导致的预测残差矢量动态范围不能有效减小,产生一些不利于量化的非特征矢量的问题。
5测试分析自回归预测多级矢量量化码本设计是利用自回归预测矢量量化模型、m进制树搜索算法、瞬时联合调整算法的一种预测多级矢量量化算法,运算框图如图6所示。自回归预测系数q取0.875,测试中m进制搜索算法中m值取8.
常用测试LSF矢量量化性能的指标有SD(谱失真)和PESQ(模拟人主观对语音的评价),在划分胞腔和寻找码字时通常采用加权均方误差最小来作为失真测度[15],虽然加权均方误差和SD值不是简单的正比关系,但是通常情况下,加权平方误差越小,SD值越小。同样,SD和PESQ也不是简单的线性关系可以描述的,一般情况下,SD越小,PESQ应该会更高些。为了便于横向对比自回归预测多级矢量量化码本与原始的MELP和AMR系统中LSF矢量量化码本的性能,所以二者的码本级数和各级码字个数必须相同。在与MELP系统对比时,二者码本均为4级,每级码本的量化所需的比特数分别为7,6,6,6,共25个比特,失真测度采用PaliwalAtal权值;在与AMR系统对比中,二者码本均为3级,每级码本的量化所需的比特数分别为8,8,7,共23个比特,失真测度采用EFR权值。测试语音为标准数据库中男女生中文英语等多种的通用语音,从码书设计的语音提取的LSF矢量共60多万帧,采用6万多帧的语音作为量化性能的测试语音。分别测试平均谱失真及2~3 db, 3~4 db和大于4 db的谱失真比例,见表1,表2. 结果可见,文中采用的自回归预测多级矢量量化设计的码本,与MELP语音系统和AMR系统的LSF矢量量化对比,各等级SD性能都大大低于两者,同时PESQ也要更高一些,实现起来算法不会比原有更复杂,且量化性能得到了明显的改善。对于算法运算次数和存储量方面的对比,因为引入了m进制搜索算法,所以经过算法定点化后,运算时间要稍稍高于MELP系统和AMR系统中的量化运算时间;存储量方面,因为码书结构一致,所以需要消耗的存储量基本差不多。因此,文中实现的自回归预测多级矢量量化系统,在不明显提高运算时间和存储量的前提下,可以有效提高AMR系统和MELP系统的LSF矢量量化语音性能。
6结论
1)对于语音编码中LSF矢量量化编码技术,经典的以LBG为基础的顺序多级矢量量化算法存在缺点,主要受限于码本设计的顺序性和码本结构;
2)m进制树搜索算法和瞬时联合调整算法可以明显的改善受限制的码本结构,进一步提高码本的量化性能和健壮性,在不降低码本性能的情况下,显著降低计算的复杂度;
3)自回归预测模型可以有效去除LSF矢量序列之间相关性,得到分布更加集中的残差矢量序列,达到压缩码本大小,提高语音质量的目的;
4)自回归预测多级矢量量化与MELP和AMR编码系统的LSF量化算法测试对比可以看出,不论是不同等级的SD还是PESQ性能都有明显的提高和改进。参考文献References
[1]Linde Y,Buzo A,Gray Y.
An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[2]石亚楠.基于MELP的低速率语音编码算法研究[D].西安:西安电子科技大学,2010.
SHI Yanan. Research of lowbitrate speech coding algorithms Based on MELP[D].Xi’an: Xidian University,2010.
[3]刘张宇,鲍长春,邱建伟,等.3GPP AMRNB与ITUTG.729A语音编码标准技术的对比研究[J].电声技术,2009,33(4):56-61.
LIU Zhangyu,BAO Changchun,QIU Jianwei,et al.Contrast study on speech coding techniques between 3GPP AMRNB and ITUTG.729A standards[J].Audio Engineering,2009,33(4):56-61.
[4]Linde Y,Buzo A,Gray R M.An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[5]黄榜,谢林柏.一种新的矢量量化码本设计算法[J].科学技术与工程,2011,11(1):46-49.
HUANG Bang,XIE Linbo.A new VQ codebook design algorithm[J].Science Technology and Engineering,2011,11(1):46-49.[6]周高洪,唐昆,崔慧娟.一种增强的LPC参数多级矢量量化技术[J].电子技术应用,2005(6):49-51.
ZHOU Gaohong,TANG Kun,CUI Huijuan.An enhanced LPC parameter multistage vector quantization technique[J].Application of Electronic Technique,2005(6):49-51.[7]Bhattacharya B,LeBlanc W P,Mahmoud S A,et al.Tree searched multistage vector quantization of LPC parameters for 4 Kb/s speech coding[J].IEEE international Conference on Acoustics,Speech,and Signal Processing,1992(1):105-108.[8]王都生,李敏.低速率语音编码LPC参数多级矢量量化的有效搜索[J].大连民族学院学报,2006(3):9-11.
WANG Dusheng,LI Min.Efficient search procedures for multistage VQ of LPC parameters at lowrate speech coding[J].Journal of Dalian Minzu University,2006(3):9-11.[9]LeBlanc W P,Bhattacharya B,Mahmoud S A.Efficient search and design procedures for robust multistage VQ of LPC parameters for 4 kb/s speech coding[J].IEEE Transactions on Speech and Audio Processing,1993,1(4):373-385.[10]WaiYip Chan,Smita Gupta,Allen Gersho.Enhanced multistage vector quantization by joint codebook design[J].IEEE Transactions on Communications,1992,40(11):1 693-1 697.[11]邹霞,张雄伟.线谱对参数预测多级矢量量化联合优化算法[J].数据采集与处理,2008,23(2):186-190.
ZOU Xia,ZHANG Xiongwei.Predictive multistage vector quantization of LSP parameters[J].Journal of Data Acquisition and Processing,2008,23(2):186-190.[12]李晔,彭坦,许明,等.带有帧间级间预测的线谱频率参数多级矢量量化技术[J].清华大学学报:自然科学版,2009,49(7):965-967.
LI Ye,PENG Tan,XU Ming,et al.High efficiency MSVQ for prediction linear spectrum frequency parameters with interframe and interstage prediction[J].Journal of Tsinghua University:
Natural Science Edition,2009,49(7):965-967.
[13]韓笑蕾,赵晓群,方腾龙,等.线谱频率及差分线谱频率参数相关性分析[J].计算机应用,2011,31(2):548-552.
HAN Xiaolei,ZHAO Xiaoqun,FANG Tenglong,et al.Correlation analysis of LSF and differential LSF parameters[J].Journal of Computer Applications,2011,31(2):548-552.
21文章编号: 1672-9315(2017)05-0736-06
摘要:在语音编码中线谱频率的量化编码多依赖于矢量量化技术。文中在分析经典的LBG多级矢量量化算法优缺点的基础上,结合m进制搜索代替全搜索以及瞬时联合调整各级码本的技术并引入自回归预测模型,实现了自回归预测多级联合矢量量化码本设计。并与窄带自适应多速率语音编码器AMR和MELP语音编码系统中线谱频率矢量量化进行了对比,效果良好。
关键词:线谱频率;矢量量化;码本设计;自回归预测模型;性能测试中图分类号:TN 912.32文献标志码: A
Technology of multistage vector quantization with
autoregressive prediction for linear spectrum frequency
CHEN Hui,ZHANG Boxia
(College of Communication and Information Engineering,Xi’an University of Science and Technology,Xi’an 710054,China)Abstract:In the speech coding,the quantization coding of the linear spectrum frequency(LSF)is mostly dependent on the vector quantization technique.Based on the analysis of the advantages and disadvantages of the classical LBG multistage vector quantization algorithm,this paper combines the msearch instead of the full search and the instantaneous joint adjustment of the codebook and introduces the autoregressive prediction model to realize the design of autoregressive prediction multistage joint vector quantitative codebook.Compared with the vector quantization of LSF in the narrowband AMR and MELP speech coding systems,the effect is better.Key words:linear spectrum frequency;vector quantization;design of codebook;autoregressive predictive model;performance testing
0引言語音编码是将模拟的语音信号转化成数字信号,达到降低传输码率并进行数字传输的目的,传输码率越低,合成的语音质量越好,但较低的传输码率则需要较高的算法延迟时间,也使计算复杂度大大提高。根据语音信号产生的数字模型,语音信号可以用一组线性预测系数(Linear Predictive Coding,LPC)和线性预测残差信号来表示。由于LPC系数能较准确表达语音信号的短时频谱幅度,将其用于语音编码,可在很大程度上降低传输码率,但缺点是重构语音自然度低,对环境噪声敏感,因此,LPC系数量化的准确性对语音编码质量至关重要。通常LPC系数不宜进行量化编码,多需转换成容易编码的线谱频率(Line Spectrum Frequency,LSF)。线谱频率表征谱包络信息,其量化编码多依赖于矢量量化技术,并采用多种编码矢量量化算法的相互补充和系统协调,才能在降低语音编码速率的同时提高语音质量。在语音编码技术中,由于相邻的线谱频率矢量之间存在着相关性,往往不是直接进行矢量量化,而是首先通过预测模型获得预测残差矢量,再进行相应矢量量化,进一步提高线谱频率矢量的量化性能,因此,模型的选取直接影响着量化性能、算法复杂度和运算时间等性能。目前,国内外常用的预测模型主要有一阶或者多阶滑动平均(Moving Average,MA)预测模型,帧间帧内预测模型等。文中在充分考虑预测模型复杂度和性能的基础上,提出了采用自回归预测模型,结合其他多级矢量量化方法,对线谱频率进行矢量量化并与语音标准MELP[1-2]中去均值无预测模型矢量量化和AMR[3]中一阶MA预测模型矢量量化效果进行测试对比。结果表明,自回归预测多级矢量量化算法实现起来更加简单,量化性能也更加优秀。
1
基于LBG的顺序多级矢量量化码本设计
LBG矢量量化算法[4-5]是标量量化LloydMax算法经过从一维标量到多维矢量扩展出的算法。LBG算法原理是使用最邻近准则,将训练矢量进行胞腔划分,再求得每个胞腔的质心作为最佳码字,运用循环迭代计算直至收敛,最终得到胞腔的最佳划分和最优码本。其不足在于:对于初始码本的选择要求较高,若初始码本代表性差,会导致算法收敛慢并易于收敛到局部最优点,码本性能不是最佳。常用初始码本选择算法中,公认的分裂法产生的初始码本性能要优于随机法选择的码本性能。另外,设计过程中往往需要占据大量的存储空间,计算复杂度也较高。通常为了达到一定的量化性能要求,码本存储量会不断地增大,码本设计所需要的时间也会成倍增加,所以多级矢量量化的引入是一种折中的方法,解决了时间复杂度和性能的平衡。文中实现的顺序多级矢量量化算法[6]是以分裂法产生的初始码本为基础。其码本设计简单的框图如图1所示。顺序多级矢量量化码本算法的基本步骤是:首先,将输入的训练矢量序列送入LBG码本生成算法,经过循环迭代产生第一级码本,并将所有输入的训练矢量划分最邻近的胞腔,胞腔质心作为码字。其次,计算出每个训练矢量与所对应的划分的胞腔质心的残差矢量,将此残差矢量序列再次送入LBG码本生成算法,循环迭代生成第二级码本。依次类推,直至生成所需要的最后一级码本。 但实际情况是,对于维度有限的信源输入矢量,顺序多级矢量量化系统会因码本设计时的顺序性,导致量化时搜索码本中的码字也往往是一级一级往后顺序搜索,相比全搜索方式得到的码字重构的矢量具有明显局限性,所以顺序多级矢量量化系统生成的码本性能不是最优的。研究表明:m进制树搜索算法[7-8]可以相比顺序搜索算法更接近于全搜索的性能;瞬时联合调整算法[9-11]也可以在一定程度上改进码字顺序搜索过程。所以,采用m进制树搜索算法和瞬时联合调整算法在很大程度上可以提高码本性能。
2m进制树搜索算法相对于受限制的码本结构,采用全搜索算法可达到最佳效果,但是对于尺寸较大的码本,采用全搜索算法是非常不现实的,因为全搜索算法具有非常大的算法复杂度。大量的实践证明:m进制搜索算法的运用,能实现在较低的计算复杂度情况下,其码本的性能可以近似达到全搜索算法的性能。图2是4级m进制树搜索算法原理框图。显然,m进制树搜索算法是介于顺序搜索算法和全搜索算法之间折中的一种搜索算法。当m=1时,m进制树搜索算法就退化为顺序搜索算法。当m接近于各级码本容量值时,m进制树搜索算法就无限接近于全搜索算法。但是m值越大,算法计算复杂度也就呈指数上升。因此,在采用m进制树搜索算法时,m的值必须大于或等于8才具有明显的效果。文中m取值等于8.
3瞬时联合调整算法顺序逐级的训练优化码本算法缺点在于优化当前级码本的时候,未能考慮后面级码本中的码字对量化结果的影响,也就是说默认了后面级码本全为空或者不存在,把当前级作为最后一级来进行优化,这样就导致了优化后的码本整体不是最优的,容易陷入局部最优解。瞬时联合调整算法是基于在每一级循环搜索中,瞬时联合优化所有级的码字,所谓瞬时,就是考虑一瞬间的情况下,在优化当前级码本的时候,假定其他级码本和每个训练矢量量化时选择的其他级码本中的码字都保持不变,去优化当前码本,充分考虑到后面各级码本中可能存在一个具有代表性的码字会多次在矢量被重构的时候选取到,所以,瞬时联合调整算法将各级码本作为一个整体进行联合优化,配合m进制搜索算法使得码本的量化性能有明显的提高。
4自回归预测矢量量化模型对于AMR语音编码系统,预测模型采用的是一阶MA预测模型,对得到的预测残差信号采用分裂矢量量化方法。一阶MA预测模型实现起来简单,计算量也更加小,但是AMR语音编码系统的一阶MA预测模型采用的固定系数的预测器,对于LSF矢量序列的预测效果不佳,会导致得到的预测残差序列的动态范围更大,导致后续的矢量量化性能不高。对于MELP语音编码系统,线谱频率的矢量量化未采用预测模型,只有简单的去均值操作,自回归预测模型的设计就是基于AMR语音编码系统中的一阶MA预测模型和MELP语音编码系统中的去均值操作二者优点相结合的设计理念。由于LSF系数矢量具有有序性的特性,使得短时内的连续的LSF矢量之间具有帧间帧内相关性[12-14]。自回归预测模型可以有效的对LSF矢量进行去均值操作,去除LSF矢量之间的相关性,得到分布更加集中的残差矢量序列,可以提高所设计的码本的量化性能和语音质量。其基本原理是输入矢量进行去均值操作后,对残差矢量进行多级矢量量化,得到重构的残差矢量再加上当前均值恢复出重构矢量,再利用重构矢量和当前的均值矢量一起计算调整均值矢量用于下一帧的去均值操作。原理上还是预测操作,当前均值矢量可看作预测矢量,可见当前帧的预测矢量不仅与前一帧的预测矢量有关,还有前一帧的重构矢量有关。实际的编解码器中,使用当前帧重构矢量和当前的均值矢量来更新计算出下一帧的均值矢量。编解码器中去均值残差矢量计算式如下
lsf_res(i)=lsf(i)-avg(i),i=1,…,10,(1)
其中lsf_res为去均值残差矢量;lsf为原始一帧输入矢量;avg为当前帧的均值矢量。重构矢量rec计算公式如下
rec(i)=lsf_res_rec(i)+avg(i),
(2)
其中,lsf_res_rec为去均值残差矢量的量化矢量。之后均值矢量的更新公式如下
avgn+1(i)=(1-q)×recn(i)+q×avgn(i),i=1,…,10.
(3)
其中q介于0到1之间,从均值矢量的更新公式(3)可以看出,当q=0时,则均值矢量就等于前一帧的重构矢量,所以预测类型退化为一阶差分预测;当q=1时,则均值矢量不会改变,所以相当于没有预测操作,即简单的去均值操作,相当于MELP语音系统中对线谱频率矢量量化前的预操作。所以,选择合适的q值,可以得到不同的预测性能。经测试,一般取q为0.875为最佳。
图3,4,5是自回归预测模型的性能分析结果。对比图4和图5,很明显自回归预测后得到的LSF残差矢量比原始LSF矢量去均值后的矢量的分布更加集中,动态范围更小,自回归预测后的LSF残差矢量序列的方差只是LSF原始序列方差的三分之一。由此可见,自回归预测模型是一种介于一阶差分预测和无预测模型的一种折中,既通过预测来减小了待量化矢量的动态范围,又避免和改进了一阶差分或者MA预测器对于LSF矢量序列可能产生的误差叠加,导致的预测残差矢量动态范围不能有效减小,产生一些不利于量化的非特征矢量的问题。
5测试分析自回归预测多级矢量量化码本设计是利用自回归预测矢量量化模型、m进制树搜索算法、瞬时联合调整算法的一种预测多级矢量量化算法,运算框图如图6所示。自回归预测系数q取0.875,测试中m进制搜索算法中m值取8.
常用测试LSF矢量量化性能的指标有SD(谱失真)和PESQ(模拟人主观对语音的评价),在划分胞腔和寻找码字时通常采用加权均方误差最小来作为失真测度[15],虽然加权均方误差和SD值不是简单的正比关系,但是通常情况下,加权平方误差越小,SD值越小。同样,SD和PESQ也不是简单的线性关系可以描述的,一般情况下,SD越小,PESQ应该会更高些。为了便于横向对比自回归预测多级矢量量化码本与原始的MELP和AMR系统中LSF矢量量化码本的性能,所以二者的码本级数和各级码字个数必须相同。在与MELP系统对比时,二者码本均为4级,每级码本的量化所需的比特数分别为7,6,6,6,共25个比特,失真测度采用PaliwalAtal权值;在与AMR系统对比中,二者码本均为3级,每级码本的量化所需的比特数分别为8,8,7,共23个比特,失真测度采用EFR权值。测试语音为标准数据库中男女生中文英语等多种的通用语音,从码书设计的语音提取的LSF矢量共60多万帧,采用6万多帧的语音作为量化性能的测试语音。分别测试平均谱失真及2~3 db, 3~4 db和大于4 db的谱失真比例,见表1,表2. 结果可见,文中采用的自回归预测多级矢量量化设计的码本,与MELP语音系统和AMR系统的LSF矢量量化对比,各等级SD性能都大大低于两者,同时PESQ也要更高一些,实现起来算法不会比原有更复杂,且量化性能得到了明显的改善。对于算法运算次数和存储量方面的对比,因为引入了m进制搜索算法,所以经过算法定点化后,运算时间要稍稍高于MELP系统和AMR系统中的量化运算时间;存储量方面,因为码书结构一致,所以需要消耗的存储量基本差不多。因此,文中实现的自回归预测多级矢量量化系统,在不明显提高运算时间和存储量的前提下,可以有效提高AMR系统和MELP系统的LSF矢量量化语音性能。
6结论
1)对于语音编码中LSF矢量量化编码技术,经典的以LBG为基础的顺序多级矢量量化算法存在缺点,主要受限于码本设计的顺序性和码本结构;
2)m进制树搜索算法和瞬时联合调整算法可以明显的改善受限制的码本结构,进一步提高码本的量化性能和健壮性,在不降低码本性能的情况下,显著降低计算的复杂度;
3)自回归预测模型可以有效去除LSF矢量序列之间相关性,得到分布更加集中的残差矢量序列,达到压缩码本大小,提高语音质量的目的;
4)自回归预测多级矢量量化与MELP和AMR编码系统的LSF量化算法测试对比可以看出,不论是不同等级的SD还是PESQ性能都有明显的提高和改进。参考文献References
[1]Linde Y,Buzo A,Gray Y.
An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[2]石亚楠.基于MELP的低速率语音编码算法研究[D].西安:西安电子科技大学,2010.
SHI Yanan. Research of lowbitrate speech coding algorithms Based on MELP[D].Xi’an: Xidian University,2010.
[3]刘张宇,鲍长春,邱建伟,等.3GPP AMRNB与ITUTG.729A语音编码标准技术的对比研究[J].电声技术,2009,33(4):56-61.
LIU Zhangyu,BAO Changchun,QIU Jianwei,et al.Contrast study on speech coding techniques between 3GPP AMRNB and ITUTG.729A standards[J].Audio Engineering,2009,33(4):56-61.
[4]Linde Y,Buzo A,Gray R M.An algorithm for vector quantizer design[J].IEEE Transactions on Communications,1980,28(1):84-95.
[5]黄榜,谢林柏.一种新的矢量量化码本设计算法[J].科学技术与工程,2011,11(1):46-49.
HUANG Bang,XIE Linbo.A new VQ codebook design algorithm[J].Science Technology and Engineering,2011,11(1):46-49.[6]周高洪,唐昆,崔慧娟.一种增强的LPC参数多级矢量量化技术[J].电子技术应用,2005(6):49-51.
ZHOU Gaohong,TANG Kun,CUI Huijuan.An enhanced LPC parameter multistage vector quantization technique[J].Application of Electronic Technique,2005(6):49-51.[7]Bhattacharya B,LeBlanc W P,Mahmoud S A,et al.Tree searched multistage vector quantization of LPC parameters for 4 Kb/s speech coding[J].IEEE international Conference on Acoustics,Speech,and Signal Processing,1992(1):105-108.[8]王都生,李敏.低速率语音编码LPC参数多级矢量量化的有效搜索[J].大连民族学院学报,2006(3):9-11.
WANG Dusheng,LI Min.Efficient search procedures for multistage VQ of LPC parameters at lowrate speech coding[J].Journal of Dalian Minzu University,2006(3):9-11.[9]LeBlanc W P,Bhattacharya B,Mahmoud S A.Efficient search and design procedures for robust multistage VQ of LPC parameters for 4 kb/s speech coding[J].IEEE Transactions on Speech and Audio Processing,1993,1(4):373-385.[10]WaiYip Chan,Smita Gupta,Allen Gersho.Enhanced multistage vector quantization by joint codebook design[J].IEEE Transactions on Communications,1992,40(11):1 693-1 697.[11]邹霞,张雄伟.线谱对参数预测多级矢量量化联合优化算法[J].数据采集与处理,2008,23(2):186-190.
ZOU Xia,ZHANG Xiongwei.Predictive multistage vector quantization of LSP parameters[J].Journal of Data Acquisition and Processing,2008,23(2):186-190.[12]李晔,彭坦,许明,等.带有帧间级间预测的线谱频率参数多级矢量量化技术[J].清华大学学报:自然科学版,2009,49(7):965-967.
LI Ye,PENG Tan,XU Ming,et al.High efficiency MSVQ for prediction linear spectrum frequency parameters with interframe and interstage prediction[J].Journal of Tsinghua University:
Natural Science Edition,2009,49(7):965-967.
[13]韓笑蕾,赵晓群,方腾龙,等.线谱频率及差分线谱频率参数相关性分析[J].计算机应用,2011,31(2):548-552.
HAN Xiaolei,ZHAO Xiaoqun,FANG Tenglong,et al.Correlation analysis of LSF and differential LSF parameters[J].Journal of Computer Applications,2011,31(2):548-552.