论文部分内容阅读
语音增强在语音信号处理流程中处于前端位置,在语音处理领域中发挥着十分重要的作用。语音增强的目的是尽可能去除含噪语音中的噪声,得到纯净的语音,提高语音质量,增强语音可懂度。深度神经网络具有非线性映射能力,使得面向语音增强的深度神经网络能够直接学习含噪语音和纯净语音之间的非线性关系,无需对信号模型进行额外的假设,因此可以被应用到更复杂的语音增强场景中。本文围绕面向语音增强的深度神经网络展开讨论,重点对适用于单通道语音增强的深度神经网络结构及影响参数进行研究。近年来,通过深度学习算法解决语音增强问题,已成为语音增强领域的热点研究内容。而深度神经网络的配置对网络的语音增强性能十分重要,可以起到决定性的作用。本文从工程实践的角度,分析了语音信号的基本特点和语音增强的主要任务,通过详细的原理性分析和大量的工程实验,研究并总结了深度神经网络的结构和参数配置对语音增强的影响。首先,本文以深度神经网络结构(Deep Neural Network,DNN)为基础结构,对一系列影响网络性能的参数进行研究。分别针对网络训练数据量、网络深度、网络宽度、激活函数、损失函数、泛化技术等主要影响因素进行了系统的研究分析。给出了适用于基于回归方法解决语音增强问题的深度学习网络参数配置方案,并通过大量实验对比,验证了本文所提出的网络参数配置方案能够有效提高语音质量。之后,本文研究了神经网络结构对语音增强效果的影响。分析了三种基本网络结构具有的特性。研究了在语音增强问题中,卷积神经网络(Convolutional Neural Networks,CNN)的网络形状、卷积核的大小和卷积方向的设置和选择,循环神经网络(Recurrent Neural Networks,RNN)变体结构的性能及选择等,并通过实验进行了验证。接着,在对深度网络结构的实验和分析基础上,结合语音信号特点,将不同网络结构的特点进行整合,给出一种C-RNN网络结构。经过实验证明,该网络拥有较强的去除噪声能力,尤其在低信噪比的情况下表现优于单一结构的网络。最后,提出一种将传统的对数谱最小均方误差(MMSE-log-STSA)语音增强算法与深度学习相结合的LMMSE-DNN语音增强方法。先将含噪语音通过MMSE-log-STSA算法进行初步去噪,接着将初步去噪的语音经过深度学习网络进行平滑处理,进一步提高语音可懂度。经过实验证明,LMMSE-DNN网络的语音听觉质量高于单一使用MMSE-log-STSA或单一使用DNN网络的增强结果。本文从工程实践的角度出发,对面向语音增强的深度神经网络性能进行研究,从参数和网络结构等方面进行分析,为其他研究人员提供参照,提高研究效率。