论文部分内容阅读
语音增强(Speech Enhancement,SE)技术在人类生活的复杂声学环境中扮演着至关重要的角色。无论是高质量的通信需求,还是优质助听设备的研发,以及人机交互的常态化都使得语音增强技术具有重要的研究意义和实用价值。本论文主要工作如下:1.提出一种基于多窗谱估计和几何谱减的单声道语音增强方法。针对传统语音增强算法限制条件多、功率谱估计不准确,导致增强语音信号残存较多噪声或者产生非线性失真的问题,提出一种基于多窗谱估计和几何谱减的单声道语音增强方法:利用多窗谱估算带噪语音功率谱,改进的最小控制迭代平均方法估计噪声功率谱,最后通过几何谱减的方式计算得到增强语音信号。实验结果显示,该方法减少了增强语音中的残留噪声,缓解了语音失真程度,有效提高了语音质量。尤其是非稳态噪声环境,以PESQ测评指标为例,与谱减法、最小均方误差估计法和几何谱减法相比,在信噪比为-5dB、0dB和5dB条件下的平均值分别相对提升12.6%、16.8%和5.1%。2.提出一种基于动态语音和动态噪声联合感知训练语音增强方法。论文基于特征映射的深度神经网络(Deep Neural Networks,DNN)模型框架,提出动态语音感知训练方法,并与动态噪声感知训练相结合,进一步提出基于动态语音和动态噪声联合感知训练语音增强方法。提取带噪语音中心帧的动态语音特征和动态噪声特征,并融合包含上下文信息的带噪语音特征,作为深度神经网络模型训练的输入向量,即同时给予训练模型语音场景和噪声场景双重环境暗示,使模型能够更好的学习带噪语音信号、噪声信号和纯净语音信号三者之间复杂的非线性关系,实现更准确的特征映射。该方法解决了增强语音失真程度大、模型噪声鲁棒性差的问题,减少了残存噪声,与参考算法相比,计算复杂度低。实验结果表明,在以上三种信噪比条件下,与原始带噪语音,以及基线系统和参考算法的增强结果相比,STOI的平均值分别相对提升11.4%、4.2%和2.8%,在改善语音质量的同时也提高了可懂度。