基于非线性映射模型的音频带宽扩展编码研究

来源 :武汉大学 | 被引量 : 0次 | 上传用户:FalyE981521
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音频带宽扩展是现代音频编解码器的重要组成部分。它利用高低频具有相关性这一物理特性,通过复制低频信号作为高频基础信号,然后在高频参数的调整下获得最终的高频重建信号。现有方法在高低频相关性较强时能够获得较高的编码音质,然而,当高低频相关性较弱时,编码音质急剧下降。针对该问题,传统方法大多采用增加高频参数来提高重建音质,但这会带来编码码率增加的问题。上述复制低频的做法是建立在高低频具有线性或准线性的映射关系上,而实际上,由于音频信号的复杂多变性,高低频间应该是非线性关系。为此,本文通过数据驱动的方法研究高低频相关性与重建音质的关系,并在此基础上研究了高低频相关性在不同场景下的特征,利用相关性特征指导方法设计,提出高频低频的非线性映射模型,并在该模型基础上,提出了多模式带宽扩展框架。本文的研究工作及主要创新点如下:(1)高低频相关性与重建音质的关系研究传统带宽扩展方法利用高低频具有相关性这一物理特性,将低频信号复制到高频,然后利用高频参数进行调整。这一方法仅利用了单通道高低频互相关,当高低频的相关性变弱时,只能通过增加高频参数提高重建质量。本文认为,传统方法对于高低频的相关性利用和认识有限。故猜想,高低频间除了单通道内的互相关,应该还有单通道时域互相关、多通道空域互相关、多通道混合互相关。为揭示高低频间的这类相关性,本文提出了基于互信息的高低频相关性定量计算方法,建立了高低频相关性与重建音质的关系模型。通过数据驱动的方法进行实验统计归纳,得出如下结论:(1)高低频相关性与重建音质呈指数关系,变化趋势为凹型递减,当相关性较低时(MI<0.1),编码质量会急剧下降;(2)高低频间不仅具有同帧内的相关性,还具有上下文相关性,并且上下文相关性在邻近帧内(一般为3帧)表现显著;(3)高低频相关性在频率域模型上比源滤波器模型上表现更加显著。(2)高低频非线性映射模型传统带宽扩展中低频复制到高频的做法,将高低频间的映射关系定义成了线性或准线性的关系。由于音频信号复杂多变,高低频信号间应该属于非线性关系。因此,在生成高频精细结构时,可以利用非线性映射获得比较准确的高频信号。通过对传统非线性映射函数的研究发现,已有非线性映射函数并不足以建模高低频的非线性关系。为此,本文应用最新的深度神经网络模型,使用RNNs模型建模高低频的上下文相关性,使用GANs建模高低频同帧内的互相关性。通过结合RNNs和GANs模型提出了 RNNs-GANs模型,该模型具备较好的建模能力。实验结果表明,通过使用RNNs-GANs模型建立从低频到高频的非线性映射,在源滤波器模型和频率域模型上,主观音质分别提高12.05%和17.60%,客观音质分别提高15.15%和16.68%。(3)基于非线性映射模型的多模式带宽扩展框架根据前述研究,不同信号类型在时域和频域内的相关性具有明显差异,并且不同信号类型采用不同编码方法获得的重建音质也不同。为此,本文提出多模式带宽扩展框架。针对类语音信号,采用源滤波器编码框架;针对类音乐信号,采用频率域编码框架。对于高频精细结构,分别训练了两个RNNs-GANs模型用于从低频到高频的非线性映射。为了解决极低相关性下高频失真的问题,设计了高频感知参数用于恢复高频谐波;通过子带能量样条插值方法恢复高频能量分布;通过时域能量平滑方法消除高频“毛刺”现象。实验结果表明,相比经典SBR方法,客观音质提高了 13.27%,主观音质提高了 5.79%,同时编码码率下降了 54.5%;相比AMR WB+使用的BWE方法,客观音质提高了26.04%,主观音质提高了 20.65%;相比AVSP10使用的BWE方法,客观音质提高了 24.45%,主观音质提高了 17.03%。相比最新标准MPEG USAC和3GPP EVS中使用的方法,主、客观音质相当,但编码码率分别下降了 71.4%和47.4%。因此,本文方法达到了最新方法的编码音质,但码率有明显下降。
其他文献
<正>当风口关闭了,市场稳定了,企业竞争拼什么?拼的就是管理能力。之所以选择这个话题,是缘于在很多论坛、培训会上发现企业对"管理"有误解,或者说是轻视,现实中也有很多企业
经济转型升级是经济发展的永恒课题,而人力资本是经济转型升级的根本动力和真正源泉。天津市"四高四低"(高投入与低产出、高消耗与低效率、高排放与低循环、高资本与低劳动力
【目的】探讨P-选择素(P-selectin)、白细胞介素1α(interleukin-lalpha、IL-1α)对结核性、恶性胸腔积液鉴别诊断价值及其临床意义。[方法]应用ELISA法分别测定48例结核性和
红花玉兰(Magnoliawufengesis)是木兰科玉兰属多年木本植物,因其优异的花形和花色特征,而成为重要的城市园林绿化树种。本研究以红花玉兰品种’娇红1号’(JH1)为研究对象,针
超分辨率(SR)重建技术利用较低成本来提升低分辨率(LR)信号的图像质量,为航天航空、郊外环境及军事目标检测、城市交通和安防监控、生物医学影像处理等应用提供更为丰富的细节信息。本文研究基于结构感知、信息集合挖掘的SR重建算法,主要工作包括:1、高分辨率(HR)图像退化前后的结构细节丢失,导致LR与HR恢复块的匹配产生误差。本文提出了一种基于隐藏主题概率模型的图像结构感知SR重建算法,基于自然图像训
在社会不断发展的过程中,工业发展的速度和程度最为明显,在变革过程中,各行各业都迎来了良好的发展机遇,其中,在化工行业当中,对新的机械、设备使用率更高,但是在设备的使用
为研究内毒素(ETx)在慢性阻塞性肺疾病(COPD)发病机制中的作用、ETx和内皮素(ET-1)与COPD肺血瘀证发生和发展的关系以及中药益气活血注射剂黄芪、川芎嗪对肺血瘀证的影响而设计本研
随着SDN技术的不断发展,其得到了愈发广泛的应用。SDN将网络控制层面与数据层面分离的核心思想和可编程特性为网络管理和控制带来了更好的便利性和更高的灵活性。然而,SDN技术在应用中仍存在北向接口安全性不足的问题。在目前常见的SDN框架及SDN控制层的实现中,北向接口通常缺乏访问控制特性,因此,当上层应用在发生错误、被恶意控制等异常情况下,其将会对网络安全造成难以预估的危害。因此,对SDN北向接口的
从大白菜生育特点入手,分析大白菜各个生长期的施肥量,根据其需肥特点,探讨了大白菜施肥技术,以供参考。
20世纪80年代以来,新兴技术采纳行为研究逐步成为社会心理学、行为科学、传播学、情报科学等领域的研究热点,社会心理学、传播学等相关学科的已有理论为信息技术用户采纳行为