论文部分内容阅读
语音分离技术作为语音信号处理系统的前端,对后续语音信号处理性能有重要影响。目前常用语音分离算法在低信噪比、混响环境下的性能受限。本文在计算听觉分析CASA(Computational auditory scene analysis)的框架上,提出了两种基于深度学习的双耳语音分离算法:基于改进理想比值掩膜的深度神经网络DNN(Deep Nerual Network)双耳语音分离算法和基于长短时记忆LSTM(Long Short-Term Memory)的双耳语音分离算法。(1)基于改进理想比值掩膜的DNN双耳语音分离算法。本文采用Gammatone人耳听觉滤波器,将原始语音预处理过后得到时频单元,对时频单元提取双耳空间特征参数:耳间互相关函数CCF(Cross Correlation Function),耳间时间差ITD(Interaural Time Difference)、耳间强度差ILD(Internaural Level Difference),作为DNN的输入。传统的分离算法一般采用理想二值掩膜IBM(Ideal Binary Mask)来进行语音分离,本文改进了原始应用在语音增强领域的理想比值掩膜IRM(Ideal Ratio Mask),将其应用到多说话人分离中,通过方位角进行建模,人的前向设置19个方位角并将环境噪声作为第20个方位角,将时频单元中每个声源和噪声的改进IRM值作为对应方位角的训练目标。本文采用SAR(Sources to Artifacts Ratio)、SDR(Source to Distortion Ratio)、SIR(Source to Interferences Ratio)、PESQ(Perceptual Evaluation of Speech Quality)作为评价指标,仿真结果表明此算法优于传统的DUET(Degenerate Unmixing Estimation Technique)算法和基于IBM的DNN双耳语音分离算法,本文算法在低信噪比和混响环境下分离指标参数有明显提升。(2)基于LSTM的双耳语音分离算法。由于语音信号特征参数的时序性,使得循环神经网络相对于DNN,更适合对语音信号特征参数进行建模,本文利用可以双向时间编码的双向长短时记忆单元BiLSTM(Bi-directional Long Short-Term Memory),提取当前帧以及前后帧时频单元的耳间时间差、耳间强度差以及耳间互相关函数作为输入特征,搭建两层LSTM单元,最后连接Softmax层表示20个方位角中声源的概率,输出最后时刻的值作为当前时频单元的估计浮值掩膜ERM(Estimated Ratio Mask),通过均方误差损失函数计算损失训练网络,测试阶段将多帧信号送入到BiLSTM得到ERM,进行语音分离。实验结果表明,基于LSTM的双耳语音分离有效地利用了前后帧的特征信息,相比于基于DNN的网络在主观评价指标上有较为明显提升,语音质量饱满,分离效果较好。