论文部分内容阅读
移动通信信道特性多变、传输带宽受限、移动终端的计算和存储资源相对有限,这一系列问题对传统音频编解码技术提出了新的挑战,面向移动网络的音频编解码技术已经成为数字音频通信领域一个新的热点研究方向。移动音频编码可以适应移动通信这种特殊的应用背景,在不同质量、速率、复杂度下解码,因而被视为移动网络环境下一种很有前景的音频频编码方法。本文在国家自然科学基金重点项目“移动音频编解码基础理论与关键技术”的资助下,从提高编码效率和质量、降低计算资源两方面入手,对量化、带宽扩展、语音/音乐混合编码等移动音频编解码中的核心关键技术进行了深入的研究,期望通过本论文的研究能够部分解决移动音频编解码技术在移动音频应用中存在的技术瓶颈。具体来讲,本论文的主要研究成果如下:1.论文研究了线性预测系数量化、长时预测等关键技术,实现了离散余弦变换(DCT)快速算法,并结合预加重、宽带感知加权和格型矢量量化技术,在传统的单一模式的语音/音频混合编码框架TCX基础上,将语音编码中的线性预测技术和音频编码中的变换和量化技术相结合,创新性的提出了一种新的移动语音/音频混合编码算法框架—改进的变换编码激励(MTCX),实现了对语音/音乐等复杂信号的编码。在MTCX算法框架中,导谱频率系数量化和长时预测编码是其中两个关键性的技术,决定了算法框架的压缩效率和重建的主观质量。针对这两个问题,本文进行了如下的研究:(1)导谱频率系数量化:导谱频率系数帧间相关性有差异,传统的导谱频率系数量化方法忽略了这种差异,采用统一的预测系数去除帧间相关,这增加了预测残差的动态变化范围,降低了量化性能。针对这一问题,论文将分类矢量量化的思想引入导谱频率系数的量化中,提出了导谱频率系数的双预测混合矢量量化算法及联合码本设计方法。算法对不同的帧间相关性选用不同的预测系数去除帧间相关,这可以有效的减少预测残差的动态变化范围,提高量化性能。实验结果表明该算法的平均谱失真较最新的AMR-WB+标准中的导谱频率系数混合矢量量化算法低0.1dB。(2)长时预测:宽带信号高频部分的谐波强弱特性有差异,传统长时预测算法不加选择的将长时预测激励信号的低频谐波结构扩展到高频,这导致了错误的预测匹配,降低了预测性能。针对上述问题,本文研究了长时预测激励搜索模型,模型基于频段波形相关估计宽带信号的高频谐波性强弱,然后根据估计的结果选择相应的滤波器算法计算最优的长时预测激励信号。算法模型解决了宽带语音频编码中长时预测激励错误匹配的问题。实验结果表明,该算法能够将编码的信噪比提高0.2~0.5dB,性能优于AMR-WB+中的多路选择宽带长时预测激励选择算法,并且运算复杂度降低了50%。2.带宽扩展算法能够显著的提高信号压缩效率,从理论上估计带宽扩展算法可以在编码质量不变的前提下,使编码的码率降低一半。但是现有带宽扩展算法提取的高频信息参数较多、编码的码率和运算复杂度较高。论文基于人耳无法分辨高频信号频谱精细结构,仅能感知高频信号频谱包络和能量的这一人耳感知特性,结合带宽扩展的基本原理,研究了基于频谱包络调整和能量修正的低运算复杂度和码率的感知带宽扩展算法,算法仅仅提取人耳感知重要的高频谱包络参数和能量参数,这可以有效降低编码的码率和运算复杂度。针对传统带宽扩展算法中高频重建频谱平滑这一难题,论文提出了一种无需额外编码比特数的合成滤波器零冲击响应匹配算法,较好的解决了对重建高频信号进行频谱平滑的问题。实验结果表明论文提出的算法在0.8kbps的编码码率下可以实现带宽扩展,并且重建音频信号的高频频谱连贯、保持了原始信号的基本谱特征,主观听觉良好。3.格型矢量量化具有低运算复杂度、低存储空间和高量化精度的优点,已成为当前音频编解码领域最重要的量化技术之一。但在中低码率下,现有的格型矢量量化技术不具备逐级精细量化特性,难以避免移动环境下网络带宽波动造成重建音频质量严重下降的影响。论文将格矢量量化、Voronoi胞腔可分级扩展结合起来,创新性的提出了一种基于Voronoi胞腔多级细分的可分级格型矢量量化算法,重点突破了中低码率环境下逐级精细量化的技术瓶颈,实现了可分级格型矢量量化,既为解决格型矢量量化中局外点难题提供新思路,也可以通过逐级量化技术建立量化质量的精度控制机制。实验结果表明可分级量化算法在量化性能在与AMR-WB+标准中的格型矢量量化算法相当的情况下,可以实现逐级精细量化,量化分层粒度可以达到8比特/层。本文在理论、方法和应用等多个层面对移动音频编解码中的关键技术进行了研究,研究成果和研究方法对其它音频编解码方法有着重要的借鉴意义。论文的最后对研究工作进行了回顾,指出了一些有待进一步研究的问题。