低信噪比与非平稳噪声下的语音增强研究

来源 :内蒙古大学 | 被引量 : 0次 | 上传用户:xyf8319
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音增强的目标是抑制噪声,增强期望的语音信号。基于信号处理的传统语音增强方法为了简化计算或获得解析解做了许多假设,在低信噪比与包含非平稳噪声的场景下会出现严重的性能下降。基于深度学习的语音增强方法具有强大的非线性映射能力,在拥有大量训练数据的前提下有望超过传统方法。目前,基于深度学习的主流增强方法通常将语音增强任务建模为全频带谱映射问题,间接忽视了语音增强领域过去几十年的经验积累。基于信号处理的传统语音增强方法通常以频域信号的平稳性差异,声源的方向性,以及语音与噪声的空间相关性差异等线索作为设计基石。作为对比,基于深度学习的语音增强方法一般基于谱模式(谐波),以全频带频率特征作为分析对象。在本文,我们尝试在这二者之间建立桥梁。我们细致的分析了窄带、子带和全频带特征之间的关联与差异,并将传统语音增强方法的设计依据融入到基于深度学习的语音增强方法中。首先,本文提出了一个全频带和子频带融合模型FullSubNet来进行实时单通道语音增强,这里的全频带和子频带分别指全频带模型与子频带模型。全频带模型的输入和输出均为全频带谱特征,一次性处理全部频带。子频带模型逐频率处理各个频带,每次的输入为一个当前频带和几个相邻的上下文频带,输出为当前频带对应的目标估计。全频带模型能够捕捉全局(全频带)信息和远距离的跨频带相关性,但它难以对频域信号的平稳性建模,缺少处理局部谱模式的专注能力。子频带模型则正好相反,由于可获取的频率上下文有限,它善于捕捉频率方向上语音和噪声的平稳性差异与局部谱模式,但缺少建模全局信息和远距离跨频带相关性的能力。FullSubNet尝试将这两种迥异的模型结合在一起,并通过有效的联合训练来整合这两种模型各自的优势。另外,分组失活策略在这一章被提出以降低FullSubNet在训练时的显存消耗与计算量。最后,我们在开源的DNS挑战赛(INTERSPEECH2020)数据集上进行了一系列实验来验证FullSubNet的有效性与性能。之后,本文提出了一个包含两次融合的RNN波束形成器DFRNN-BF来进行帧级别的实时多通道语音增强。第一次特征融合发生在掩蔽估计阶段,我们引入一个窄带模型作为传统全频带掩蔽估计器的后滤波器。在多通道语音信号中,窄带的STFT系数沿着时间的变化过程除了可以反映频域信号的平稳性,还可以进一步反映语音的方向性,以及语音与噪声(包括混响)的空间相关性差异,进而提供与全频带特征互补的信息。第二次特征融合发生在波束形成阶段,我们使用一个非常轻量的神经网络来建模频率之间的关系,与后续的窄带RNN波束形成器进行融合。逐频带的RNN波束形成器可以利用单个频率上的信息,但是缺少频率之间的隐式约束(即全局信息),我们有必要在这一阶段进行第二次融合。基于开源数据与私有的工业级数据,我们构建了一个非常具有挑战性的多通道语音增强数据集,并在该数据集上验证了DFRNN-BF的有效性与性能。
其他文献
智慧物联网行业的兴起,为草原火灾监测预警系统的实现提供了更加细致精密的手段。在草原火监测中,运用各类传感器对草原环境进行有效的监测,以大数据分析及人为控制等手段为草原构建出各季最优环境,是进一步抑制草原火灾的重要举措。本文针对现有的草原火监测系统存在的数据采集时能量所耗较多、数据因未进行全网同步而不具有时效性等问题,选用以ZigBee为技术基础的成本较低、功耗适中、分布式自组织无线传感器网络,设计
近年来对于植物的保护成为研究热点,在复杂广阔的自然环境下,无人机航拍成为植物图像获取的最佳方式。鉴于地面终端管理系统在航拍图像管理中的核心地位,对地面终端系统的深入研究成为航拍项目的重中之重。本文首先从实验室课题背景出发,采集内蒙古自然环境中植物的航拍图像进行分割与识别,以便统计区域内的植物种类及生长情况,本文针对课题应用所需设计一款地面终端管理系统,本地面终端系统可使操作人员对传回地面的图像更加
随着畜牧业的发展,规模化、精细化、智能化养殖已经成为牛养殖业的必然发展趋势。牛个体识别技术是牛精细化养殖和保险业的基础,并且牛的育种、疾病控制、智能化管理,以及乳制品与牛肉制品的质量监管等方面都需要高效的个体识别技术。随着深度学习技术在图像领域的发展,基于生物特征的牛个体识别技术取得了长足进步。本文以牛的面部特征为基础,提出了基于深度学习的牛面部图像识别方法,具体工作如下:1.构建牛面部图像数据集
近几年,公共场所佩戴口罩已经成为大多数国家的共识。同时卷积神经网络在图像识别领域有着良好的应用前景,卷积神经网络需要大量的资源和内存,并且计算量大,FPGA凭借其可重构、低延迟和低功耗等特点,成为主流的应用平台之一。本文通过在FPGA端部署卷积神经网络并识别口罩佩戴情况主要研究成果如下:1.在软件端,利用自主设计的卷积神经网络检测口罩佩戴情况,得到98.5%的识别准确率,并可区分出佩戴口罩不规范和
内蒙古自治区是全国五大牧区之一,在全国畜牧业中占据重要的地位。自治区的发展战略目标中提到,要逐步推进新型的信息科技在畜牧业中深层次的融合应用。其中,牛的个体识别技术对智慧牧场建设和畜牧业保险有着重要意义。三维识别方法比二维识别能提供更丰富的空间信息,可以更精准地进行个体识别。而在三维识别中,牛面部的三维重建是至关重要的一环,对畜牧业的智慧管理具有一定的应用价值。本文针对牛面部三维图像重建的主要研究
随着互联网的兴起和普及,我们进入了一个人人都生产数据的时代,需要处理和存储的数据呈指数式的增长,但传统的数据处理和存储技术却遭遇了瓶颈。而云计算作为海量数据处理和存储的主流平台应运而生。Hadoop则是云计算开源的分布式并行计算框架之一,由Apache旗下基金会发布,被广泛地应用于众多大公司,例如雅虎、脸书、亚马逊、谷歌、微软等。因此,Hadoop渐渐地成为了云计算平台海量数据处理和存储的主流框架
近年来深度学习广泛应用于图像分类、目标检测、图像分割、语音识别等众多领域中.图像修复是计算机视觉领域中的一个重要课题,常见于影视娱乐、医疗影像、公共安全、文物修复等日常生活的方方面面,其主要任务是利用图像整体结构纹理重绘缺失部分的细节,使修复完成的图像内容和谐一致.深度学习很好地解决了传统图像修复的局限,提高了修复模型的学习能力,显著改善了修复效果.时至今日,人们针对不同问题提出了众多图像修复的方
ARINC429是航空电子设备中广泛使用的一种总线协议。近年来,随着我国航空航天技术不断发展,对航空通讯设备的需求越来越大。国内航空通讯设备所用集成电路芯片长期依赖进口,经常面临各种限制问题,因此我国迫切需要拥有自主研发的航空通讯设备。本论文旨在研制一款基于CPCI总线的国产化ARINC429通讯模块,该模块可以提供4路ARINC429接收通道和2路ARINC429发送通道,采用国内先进的集成电路
自旋转移矩磁随机存储器(Spin-Transfer Torque Magnetoresistance random access memory,STT-MRAM)有望代替传统存储器,其高效,非易失性,存储时间长等优点引起了人们的关注。随着科技的不断进步,存储器也不断面临新的挑战。近年来,随着MRAM的存储密度不断增加,尺寸不断减小;同时,还要通过增强磁各向异性来提升存储器的热稳定性。如何可以更好地
面向汉语、英语等大语种的语音交互系统已经应用于科技和生活的各个方面,极大地提高了信息获取效率。而蒙古族人民也对语音交互系统有广泛的需求,希望使用蒙古语与智能设备交互。因此本文设计并实现了面向蒙古语的语音交互系统,本系统由蒙古语语音识别、问答系统、语音合成三部分组成。其中问答系统是语音交互系统的核心部分,问答模型性能的好坏直接影响语音交互系统生成回答的语言质量。目前还没有公开的高质量蒙古文问答语料库