论文部分内容阅读
感知音频编码是多媒体产业的一项重要技术。在过去数十年间,为了满足数字音频的高效传输和存储需求,多种压缩率高、编码质量优良的感知音频编码器被提出和推广。在目前感知音频编码的快速发展中,对其基本模块——滤波器组、心理声学模型和量化编码模块的研究,仍具有重要的理论和应用价值。
监控音视频编码为面向国家安防领域而设计,它对维护社会治安、打击预防犯罪具有重要意义。我国政府于2008年启动了国家标准《安全防范监控数字视音频编解码技术标准》(简称SVAC)的制定工作,本文作者参与了其第二部分——音频编解码技术要求的制定。不同于传统音频编码器,SVAC监控音频编码器具有独特的技术特点,编码器的进一步研究及优化,将促进SVAC标准的发展和改善。
本文主要工作包括以下几个方面:
1)针对感知音频编码的滤波器组模块,提出一种MDCT/IMDCT快速实现方案,与已有算法相比,降低了浮点运算量。针对瞬态信号检测问题,提出一种基于平坦测度的检测方法,具有检测准确度高、运算简单的优点。
2)在分析常用的几种声学模型的基础上,提出一种声学模型设计的改进思路,主要关注前向掩蔽和掩蔽叠加的应用。将一种前向掩蔽模型,经非线性叠加,整合到MPEG-4 AAC声学模型中,可消除更多的人耳感知无关冗余,提高编码效率。
3)通过分析MPEG-4 AAC量化模块中双循环搜索(TLS)算法的原理与缺陷,设计了新的量化模块和比特分配方案。改进有两个方面:一是利用新的感知熵估计编码过程中的比特消耗,加快量化模块的收敛速度;二是对性能最优但运算量剧增的BFOS算法进行优化,提出了量化步长自适应调节和量化步长初始值线性预测两种方案,极大地降低了BFOS算法的运算复杂度。
4)对于SVAC音频编码模块,提出利用编码器前端提取的梅尔频率倒谱系数(MFCC)实现解码信号的高频内容重建,去除了原SVAC的频带扩展(BWE)模块,简化了编码器结构,并且在不增加比特率的情况下,提高了音频信号的编码质量。
5)对于SVAC特征参数的量化模块,进行了多种编码条件下MFCC量化失真的统计和对比,根据实验结果设计了新码本,减少了量化误差。