基于深度学习的鲁棒语音识别

来源 :桂林电子科技大学 | 被引量 : 0次 | 上传用户:jackieWXM
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对在噪声、混响等环境下语音识别系统识别率严重下降的问题,本文以深度学习和麦克风阵列信号处理作为主要技术方法,讨论并研究了若干鲁棒语音识别中的关键技术。论文的主要工作与贡献如下:(1)搭建了一个基于混合声学模型的语音识别系统,通过实验,研究了三音素上下文建模、深度神经网络、特征变换技术对识别率所带来的影响,并且评估了这些技术在混响噪声环境下的鲁棒性;(2)在流式语音识别的实际应用中,通常要求系统的预处理前端能够低延迟且实时地处理多个任务,并且对噪声要有很强的鲁棒性。针对上述问题,提出了一种语音增强与语音活动检测的多任务深度学习模型。该模型引入了长短时记忆网络,并以硬参数共享的方式连接了两个任务的输出层,构建了一个适合于实时在线处理的因果系统。实验结果表明,相较串行处理两个任务的基线模型,多任务模型在语音增强结果非常相近、语音活动检测结果更优的情况下,其速度快了44.2%,这对于深度学习预处理模型的实际部署将具有重要的意义;(3)针对传统多通道语音分离算法在扩散噪声下性能下降的问题,提出了一种用于语音分离及降噪的空间协方差模型及参数估计方法。该方法将扩散噪声视为独立声源,利用由声学传递函数重构的空间协方差矩阵建模目标声源的空间特性,并通过空间协方差分析方法估计用于语音分离的多通道维纳滤波器。同时,还提出了一种联合该方法的后置滤波器参数框架,为输出信号降噪和失真的折中提供了更多选择。在扩散噪声下的语音分离实验中,所提方法的分离性能要优于其他对比算法,联合参数的后置滤波器可提供更为符合人们要求的降噪语音,验证了所提模型与参数估计方法的有效性。另外,在鲁棒语音识别实验中,所提方法无论是在扩散噪声还是点声源噪声环境下,增强后的语音识别率都有显著的提高,且优于其他对比方法,验证了其作为鲁棒语音识别前端处理系统的有效性。
其他文献
随着无人机技术发展迅猛,使得无人机在生产生活中被广泛使用,但无人机的不规范使用对航空管制和公共安全造成了威胁。因此,如何对无人机进行有效地检测成为了亟待解决的问题。由于无人机具有飞行高度低、飞行速度慢、不易被发现的特点。同时无人机飞行环境十分复杂,存在大量杂波和干扰,传统的雷达检测方法很难将其从复杂的环境中检测出来。因此,本文提出知识辅助的反无人机雷达检测方法,提高无人机目标检测性能,具体如下:(
随着科学技术的高速发展,人工智能已经广泛应用到医疗、交通、金融等诸多领域,智能看护机器人、自动驾驶汽车等形式多样的智能体在人类生活中也扮演着越来越重要的角色。然而人类在享受人工智能带来的便利之时,也需要解决其带来的伦理问题。例如,机器人误将工人识别为钢板切割、智能音箱建议其使用者自杀、无人驾驶汽车失控致人死亡等。因此,如何确保智能体具备遵守人类基本伦理规范的能力,并与人类进行恰当而友好的互动,是当
随着移动通信、物联网应用的快速发展,用户对应用服务质量提出了更高的要求。边缘计算的出现使得应用服务可以部署在靠近用户的位置,从而降低时延并减少网络负载,提升服务质量。在边缘计算的场景下,不同安全域下的边缘节点的应用往往只为区域内用户提供服务,智能应用的模型参数,用户缓存的数据等保存在本地边缘节点。当用户的地理位置或者网络连接发生变化时,业务的连续性无法保障。因此,为了提供更优质的边缘服务,在保证数
近年来,由于超大规模集成电路(VLSI)制造技术的飞速进步,集成电路的规模与日俱增,使得集成芯片的性能大幅度提升。由于VLSI阵列具备规则的结构以及便捷的实现方式等优势,在微型计算机、雷达、控制等重要领域得到了广泛运用。然而,随着集成电路日趋于复杂,使得集成系统出现问题的可能性也随之增加,从而无法有效的保障集成系统的稳定性。因此,在确保VLSI满足高性能、高速度要求的前提下,为了提高多处理器阵列的
本文通过电弧熔炼与甩带的方法制备出了具有密排六方结构的稀土高熵合金Gd Tb Ho Er、GdTbHoErY、Gd Tb Ho Er La、Gd Tb Ho Er Pr和Gd Tb Ho Er La Y。主要对这些高熵合金做了三个方面的工作:一、通过XRD、SEM和TEM证明了稀土高熵合金GdTbHoErY具有单相的密排六方结构,并且绘制了其磁性相图,研究了其相变类型和磁热效应。二、在稀土高熵合金
空天地海一体化是未来通信发展的重要战略,水下通信作为其中重要的一环,引起了各个国家的极大兴趣。水下无线通信技术主要分为三种:微波通信、水声通信和水下光通信。水下无线光通信具有大带宽、抗干扰能力强、保密性好、体积小等特点,在军事和宽带接入网等领域具有很大的应用潜力。实际的水下无线光通信链路中,海水对光具有吸收、散射等衰减特性,且对于光的影响随波长改变,例如海水中存在蓝绿光谱透射窗(450~550nm
MOSFET功率器件具有驱动方式简单、易集成、易并联、输入阻抗高以及开关响应快等优点,广泛应用在交通运输、生活娱乐以及军事航空等各个领域。但是由于其比导通电阻(Ron,sp)与击穿电压(BV)存在着2.5次方的矛盾关系,于是随着击穿电压的升高,导通电阻显著增加,这严重的限制了MOSFET在高压大功率领域的应用。本文围绕如何改善横向MOSFET功率器件中Ron,sp与BV的矛盾关系,以及如何降低曲率
在建筑密集的城市、深林沟壑的野外和室内等环境复杂的区域,全球卫星导航系统(Global Navigation Satellite System,GNSS)信号容易受到遮蔽,导致定位精度下降严重,甚至无法提供正确的位置服务。为此,在特定区域建立伪卫星定位系统来提供导航信号能够有效弥补卫星导航系统的信号盲区,成为克服此类问题的途径之一。在分布式伪卫星独立组网定位系统中,伪卫星的时钟各自独立,因其工作起
大数据时代对传统存储系统的各项性能提出了全新的挑战,传统存储系统在大规模数据存储方面存在诸多缺陷,所以分布式存储系统凭借其优秀的性能和低廉的构造成本成为了当前大规模数据存储领域的主流存储系统。但由于分布式存储系统的底层设备普遍采用廉价商用硬件,故障率较高,因此,如何在节点失效成为一种常见问题的场景下保证存储数据的完整性与可靠性成为了首要问题。为了防止由节点故障导致的数据失效所引起的业务损失,分布式
随着网上信息量的急剧增加,信息过载问题成为了制约网络发展的一个重要因素。个性化推荐系统作为解决信息过载问题的有效手段,得到了工业界和学术界越来越多地关注和研究。图作为一种重要的数据结构,可以表示一组对象及其之间的复杂关系。随着人工智能的发展,可以有效提取图中特征表示的图神经网络被提出,并在生物化学、经济金融等领域取得了显著的研究成果。推荐系统中的大部分数据本质上具有图结构,将图神经网络应用于推荐系