论文部分内容阅读
语音是最为重要的人机交互手段之一,语音的清晰度是人机交互得以顺利进行的关键,尤其影响着语音识别应用系统的识别性能。因此,研究语音信号增强以提高语音信号的清晰度具有重要的理论与实际应用价值,也是当前语音信号处理领域的热点之一。语音增强的关键点是有效的语音信号表示方法,有效表示是指表示方法能够区分语音信号与噪声、能够区分语音中的不同信号成分等,以便于抑制噪声和不感兴趣成分,增强感兴趣的信号成分。为此,论文分别从自适应字典学习和深度神经网络两个视角研究基于表示学习的语音增强方法,论文的主要研究内容与贡献有:(1)论文首次将贝叶斯自适应字典稀疏表示方法引入到语音表示领域,该表示学习方法利用贝塔过程因素分析(Beta Process Factor Analysis,BPFA)方法把字典学习、稀疏系数表示和噪声方差估计融合成一个贝叶斯后验估计的过程,其用概率分布来表示参数,能根据数据自身特点进行自适应学习,有效克服了传统字典学习算法对参数设置依赖性较大的不足。在NOIZEUS语音库上实现信号域上的语音增强实验,分析和讨论了该方法根据数据自身进行自适应字典学习和稀疏表示的能力,并证明了其能在不进行任何噪声方差估计的前提下有效去除环境噪声并提高人耳的听觉感受。(2)深度学习相关研究表明,自适应字典稀疏表示方法是一种浅层网络,仅能抽取信号中较低层的语义特征,为使语音增强算法具有较强的鲁棒性往往需要利用高层的语义特征。另外,语音信号具有较强的时间相关性,而目前的自适应字典稀疏表示方法难以有效刻画这种相关性。鉴于此,论文利用双向长短期记忆模型(Bidirectional Long Short-Term Memory,BLSTM)学习带噪语音特征和干净语音特征之间的关系表示,以有效利用语音信号的时间相关性以及高层语义特征。本文在中文数据库上对基于Mel频率的倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)进行特征增强,并通过不同噪声环境下四种语音识别系统识别性能的对比分析验证该增强方法具有较好的噪声鲁棒性。