基于深度神经网络的多麦克风语音增强方法

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:sxiaohui8709252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际中,语音信号常常会因为回响混响、环境噪声的存在而受到干扰,使得麦克风接收到失真的带噪信号。语音信号的失真不仅会影响语音的可懂度,也会影响语音处理系统的整体性能。语音增强作为语音信号处理的前端,其目的在于从被各种噪声及各类干扰污染的带噪语音信号中恢复出清晰可懂的目标语音信号。此种技术不但能为人耳提供更好的听觉体验,同时也能为语音识别等技术奠定基础。在复杂的声学环境中,传统的基于单麦克风的语音增强往往性能有限,利用多麦克风带来的空域信息进行语音增强的方法可以带来更高性能提升。  本文考虑到在传统的多麦克风语音增强系统中,存在导向矢量估计不准确的问题,从而约束了语音增强性能,故对此展开研究。本文通过预测时频掩码进行导向矢量估计的方法,提升导向矢量的估计准确度,进而提升语音增强性能。  论文关于时频掩码预测的研究,采用的是基于深度神经网络的时频掩码预测方法。本文借鉴深度学习在图像上的成功应用,针对单通道语音增强问题,设计出相应的训练特征和网络结构进行训练。实验证明,深度神经网络具有比较好的噪声学习能力,基于深度神经网络的时频掩码预测方法可以预测出纯净语音信号的时频掩码矩阵,其不但可以用做单通道语音的增强语音的恢复,也可以用于多麦克风子系统的导向矢量的估计。  此外本文在时频掩码预测的过程中,针对不同噪声的性能差异,通过引入噪声分类,对不同类型的噪声分类识别处理,在训练阶段针对不同类型的噪声分别训练。实验表明,这种做法可以提升网络模型的时频掩码预测准确度。  通过基于深度神经网络的预测时频掩码的方式进行导向矢量的估计,相比较于传统的导向矢量估计方法,其摆脱了对平面波传输假设及麦克风阵列几何信息等先验知识的依赖。实验表明,本文提出的多麦克风语音增强的方法可以有效提高多麦克语音增强系统的性能。
其他文献
诱导型热休克蛋白70(Heat Shock Protein 70,HSP70)是HSP70家族的成员,在细胞周期中对维持细胞的完整性和正常的生理环境发挥着重要的作用。TRAF6(tumor necrosis receptor ass
Internet呼叫中心是指集成了Internet应用的呼叫中心.相对于传统的呼叫中心而言,Internet呼叫中心是以WWW接入为主的呼叫响应中心.它向客户提供一个可访问的Web站点.客户访问
该文从安全角度对移动电子商务进行分析,并提出可行的解决方案.第一章"WAP协议与安全通鹤"概要介绍了WAP协议,并对其中涉及安全通信的WTLS和WIM规范进行了分析讨论.第二章"网
该文共分六章进行讨论.第一章介绍心电自动分析的研究现状和基于模糊推理的心律失常分析系统的基本构成;第二章介绍心电信号预处理及波形检测;第三章介绍模糊型建立及模糊规
该论文从传输层和链路层两个角度出发,以理论分析和仿真研究为途径,对丢失恢复和差错重传技术进行了系统深入的研究,并提出了改进方案.首先,对于无线网络中单连接TCP,我们研
光电混合振荡器(optoelectronic oscillator, OEO)可以生成稳定的具有极低相位噪声的微波、毫米波信号,在通信、雷达、导航和测试系统中有着广泛的应用,通常被用作频率参考源或
该文主要阐述了电力线路故障诊断专家系统的设计思想和实现方法.首先,在简要描述了专家系统的基本思想,发展现状和其在故障诊断中的应用以后,介绍了电力线路巡检管理系统的设
波分复用全光传送网是当前光纤通信研究的前沿与热点之一,OXC(光交叉连接设备)与OADM(光上下复用设备)是目前组成光传送网的两个关键节点.目前MEMS光开关是OXC中实现数据交换
该文对国际DSRC标准发展趋势及国内ETC系统应用现状进行了研究、对国内外ETC系统的DSRC标准进行了分析比较,并对适合中国国情的ETC系统DSRC的物理层、数据链路层和应用层进行
该文阐述了电力系统接地电阻测量的意义与必要性,指出传统测量方法所存在的问题,阐述了接地电阻测试原理和方法,讨论了一种克服传统方法缺点的电力网接地电阻的智能测试的新