论文部分内容阅读
随着网络通信、移动通信和多媒体技术的快速发展,不同网络、系统和服务平台之间的相互融合已经成为一种必然。在这一趋势下,通信与娱乐之间已不再具有明显的界限,人们已经不满足于单一的语音通信需求,更希望享受兼容语音与音频的通信服务所带来的愉悦。但是,传统语音与音频编码由于算法模型的限制,无法同时对语音、音频及其混合信号取得理想的编码效果,从而限制了移动多媒体技术的进一步发展。基于此背景,运动图像专家组(Moving Picture Expert Group, MPEG)提出了构建语音与音频通用编码器的倡议。尝试利用统一的编码模型,实现对语音、音频及其混合信号的通用编码,以克服传统语音和音频编码器仅适合处理单一类型信号的弊端。因此,该倡议一经提出就成为语音频编码研究的热点问题,目前多家研究机构均参与了对通用编码算法的研究。针对这一问题,本文对现有语音和音频编码技术展开深入研究,从语音和音频信号共有的谐波特征出发,提出了两种通用编码框架,并最终在24kbps和32kbps码率下实现了对宽带语音和音频信号的通用编码。本文的主要成果体现为如下几个方面:1.本文基于信号特征成分分离的思想,通过发掘语音和音频信号共有的谐波特性来搭建通用编码框架。该框架抛开现有通用编码技术基于类型判别和选择的编码机制,利用统一模型对输入信号进行分析,通过保持量化前后信号概率密度分布的一致性实现通用编码,有效地解决了现有通用编码器过分依赖信号类型判别和对混合信号量化机制选择不合理等缺点和不足;2.本文将经验模态分解算法(Empirical Mode Decomposition, EMD)引入语音与音频编码领域,基于输入信号本征模态函数的感知重要性和周期性特征,利用EMD分解的自适应滤波特性,提出了一种基于信号特征的谐波分离算法,通过提取输入信号的谐波成分,提高了正弦模型参数估计的准确性;3.提出了一种基于谐波分离的正弦参数通用编码算法,该算法采用混合编码的方式对输入信号的不同特征成分进行分别编码,以发挥参数编码和变换编码的不同优势,从而达到系统的整体最优。对于谐波成分,本文采用基于感知梯度加权的匹配追踪算法进行正弦参数建模和多分辨率量化编码;对于非谐波成分,本文提出了一种基于RE8格的抖动格型矢量量化方法,使得量化噪声表现为独立于原始信号的高斯白噪声,从而提升了合成信号的主观感知质量;4.为了提升所提正弦参数通用编码算法对语音信号的编码质量,本文将基频同步分析技术与功率谱保持量化相结合,提出了一种基于基频同步的语音量化方法。该算法利用输入信号的基频信息,将输入信号规整为具有固定周期的规整信号,并对规整后的周期信号进行稀疏变换,通过能量集中的方式实现对浊音语音调制变换系数的稀疏化,从而提升了编码器对语音信号的压缩效率;5.在原有基频同步分析算法基础上,提出了一种基于能量加权归一化互相关的自适应分析窗长判决方法,使其能够实现对语音、音频及其混合信号的统一分析,并与概率分布保持量化技术相结合,搭建了一种基于概率分布保持的语音与音频通用编码算法,该算法以变换域编码为基础,通过保持编码前后信号间概率分布特征的一致性,实现了对语音和音频信号的通用编码。最终测试表明,所提算法对宽带语音和音频信号的编码质量,均优于AMR-WB和ITU-T G.722.1编码标准。