论文部分内容阅读
在数字公共交换电话网络中,因为语音采集设备、编解码方式和信道带宽限制等原因,语音信号的频带通常限制在0Hz~4k Hz的窄带范围,缺失了高频部分的窄带语音,在听觉感受上往往表现低沉且厚重,严重降低了语音的情感、说话人和发音辨识度。语音频带扩展技术旨在恢复窄带语音缺失的高频频谱,提高语音质量和清晰度。传统语音频带扩展技术大都是基于语音产生机理的源-滤波器模型,将语音频带扩展任务分为了高频谱包络估计和激励信号生成,如码本映射、高斯混合模型和隐马尔科夫模型等,由于这些方法的性能很大程度的受到声学特征维度影响,并且对窄带频谱和高频频谱的建模能力有限,重构的宽带语音存在诸多问题。近年来,随着深度学习技术的普遍兴起,越来越多的神经网络模型成功应用到了语音频带扩展领域,但是真正高性能和高效率的神经网络模型还有待进一步探索和研究,以便能在实际设备中得到便捷的使用。本文旨在提高神经网络模型在语音频带扩展应用中的性能和实时性,具体研究内容包括:(1)本文提出了基于时间卷积网络的语音频带扩展方法。针对神经网络在时序数据建模能力上的不足,使用扩张因果卷积神经网络,搭建了时间卷积神经网络模型,用来对时域窄带语音波形和时域宽带语音波形之间的非线性映射关系进行建模,取得了较好的重构宽带语音质量;针对传统神经网络往往求模型预测值和标签值之间样本级别的L1或L2距离作为模型的损失函数,本文进一步提出了时频损失函数,能够促使模型从时域和频域两个角度优化模型的训练,再次增强了语音频带扩展的性能。(2)本文提出了基于编解码网络的语音频带扩展方法。针对神经网络模型参数庞大,算法复杂等问题,使用编码器网络对高维数据进行特征提取和降维,解码器网络进行宽带语音的恢复,并在编码器网络和解码器网络中间的瓶颈层使用了长短期记忆网络,增强了模型对时序数据上下文关系的学习能力,取得了不错的主观评价和客观评价得分。为了更全面的引导模型权重参数的更新方向,进一步提出了时频感知损失函数,提高了模型在时域、频域和感知域的拟合精度。(3)本文提出了基于时频感知网络的语音频带扩展方法。时频感知网络同样采用编解码器结构,在编码器和解码器网络中均使用扩张卷积神经网络,在瓶颈层使用局部敏感哈希自注意力层,提升了编码器和瓶颈层对语音时序数据的声学特征提取能力,增强了解码器对宽带语音的重构能力。此外,为了进一步的提高模型的拟合能力,提出了深度时频感知损失函数,取得了优于传统频带扩展方法和经典神经网络频带扩展方法的结果。