感知音频编码和监控音频编码(SVAC)关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:FlyinginSky
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
感知音频编码是多媒体产业的一项重要技术。在过去数十年间,为了满足数字音频的高效传输和存储需求,多种压缩率高、编码质量优良的感知音频编码器被提出和推广。在目前感知音频编码的快速发展中,对其基本模块——滤波器组、心理声学模型和量化编码模块的研究,仍具有重要的理论和应用价值。   监控音视频编码为面向国家安防领域而设计,它对维护社会治安、打击预防犯罪具有重要意义。我国政府于2008年启动了国家标准《安全防范监控数字视音频编解码技术标准》(简称SVAC)的制定工作,本文作者参与了其第二部分——音频编解码技术要求的制定。不同于传统音频编码器,SVAC监控音频编码器具有独特的技术特点,编码器的进一步研究及优化,将促进SVAC标准的发展和改善。   本文主要工作包括以下几个方面:   1)针对感知音频编码的滤波器组模块,提出一种MDCT/IMDCT快速实现方案,与已有算法相比,降低了浮点运算量。针对瞬态信号检测问题,提出一种基于平坦测度的检测方法,具有检测准确度高、运算简单的优点。   2)在分析常用的几种声学模型的基础上,提出一种声学模型设计的改进思路,主要关注前向掩蔽和掩蔽叠加的应用。将一种前向掩蔽模型,经非线性叠加,整合到MPEG-4 AAC声学模型中,可消除更多的人耳感知无关冗余,提高编码效率。   3)通过分析MPEG-4 AAC量化模块中双循环搜索(TLS)算法的原理与缺陷,设计了新的量化模块和比特分配方案。改进有两个方面:一是利用新的感知熵估计编码过程中的比特消耗,加快量化模块的收敛速度;二是对性能最优但运算量剧增的BFOS算法进行优化,提出了量化步长自适应调节和量化步长初始值线性预测两种方案,极大地降低了BFOS算法的运算复杂度。   4)对于SVAC音频编码模块,提出利用编码器前端提取的梅尔频率倒谱系数(MFCC)实现解码信号的高频内容重建,去除了原SVAC的频带扩展(BWE)模块,简化了编码器结构,并且在不增加比特率的情况下,提高了音频信号的编码质量。   5)对于SVAC特征参数的量化模块,进行了多种编码条件下MFCC量化失真的统计和对比,根据实验结果设计了新码本,减少了量化误差。
其他文献
水下目标识别技术是现代声纳系统与水声对抗的一个重要的组成部分,如何准确无误地对水下物体进行目标分类和识别、加强水下目标识别技术的研究手段和提高水中目标识别性能刻
随着企业信息化建设程度的不断提高,企业中的应用系统也越来越多。各系统往往都有自己的安全策略,由于各系统互相独立,一个用户在使用每一个应用系统之前,都必须按照相应的系
期刊
现在,很多人在繁重的社会及工作压力下,都想寻觅能够真正放松心情的地方,到哪儿去实现呢?过去饭店就是饭店,花园就是花园,很难有合二为一的去处?而北京盛芳艺苑就提供了这样
上期笔者已经提到,为争取一次交易而不审便签合同,是餐饮企业的突出问题,并谈到审核餐饮企业合同的重要性以及合同审核应注意的三个方面。本期笔者将谈谈合同审核的其他五 A
超宽带(UWB,Ultra-Wideband)脉冲无线电是一种可以和其它通信系统共享频谱资源的新型无载波通信技术,它以巨大的军事、商业价值和技术挑战引起了国际通信领域工业界和学术界
立体视觉技术是计算机视觉的一个重要分支,它的最终目的是模拟生物视觉使计算机具有通过二维图像感知三维环境信息的能力。目前立体视觉技术已经在三维测量、机器导航、虚拟
学位
MANET网络由于其自组织性、自愈性等特点使其广泛应用于军事通信和灾后应急通信等领域。针对MANET网络提出了许多路由算法和协议,包括按需路由协议、主动路由协议和混合路由
随着信息技术的不断创新和社会需求的大力推动,以数字多媒体技术为代表的产业应用得以蓬勃发展。视频压缩编码是数字多媒体处理的关键技术,是各种视频应用如视频监控、视频会