语音识别系统中的声源分离技术研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:liuyi8431201
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能技术的迅速发展,语音识别越来越多地融入我们的生活。然而语音识别的使用环境不可避免地受到各种噪声的干扰或人声的混叠影响,从而导致语音识别系统的性能受到严重的影响。因此受噪声干扰或被人声混叠的语音信号需要通过声源分离技术进行处理后再送入语音识别系统中。根据所处理的混合音频信号类型可以将声源分离技术分为处理带噪语音信号的语音增强技术及处理混叠人声语音信号的多说话人分离技术。本文主要对基于深度神经网络的语音增强算法和基于深度聚类的多说话人分离算法进行了研究,主要研究内容如下。首先本文研究了基于深度神经网络的先验信噪比估计器及其应用于语音增强算法的整体框架。该算法的增强效果依赖于先验信噪比估计的准确性。在低信噪比及噪声类型与语音难以区分的情况下,先验信噪比估计不够准确会影响语音增强的效果。针对这一问题,本文提出了一种在先验信噪比估计器前引入独立低秩矩阵分析的盲源分离算法。提出的算法先将带噪语音信号进行噪声和语音的分离,从而提高带语音部分音频信号的信噪比。实验结果表明,提出的语音增强算法在低信噪比情况和一些乐器噪声干扰的情况下获得了比基本算法更好的语音增强效果,且更能提升语音识别系统的识别率和鲁棒性。其次本文研究了基于深度聚类的多说话人分离算法。针对该算法使用的K均值聚类算法对簇初始中心值的选取敏感而导致的分离效果不稳定的问题,本文提出了使用基于层次聚类的深度聚类算法进行多说话人分离。提出的算法无需对簇初始中心值进行选取。实验结果表明,提出的算法相对于基本深度聚类算法具有更高的分离性能和稳定性,并且更能降低语音识别系统的词错率。
其他文献
目的在剖宫产手术后给予快速康复外科理念下精细护理,评估对产妇早期下床进行活动的促进作用。方法以2015年6月至2016年6月入本院待产并施行剖宫产手术的产妇85例为对象,依据
服务型领导是一种领导者服务于员工,员工服务于客户,进而客户带来组织效益的领导方式。文章在大量文献回顾和分析的基础上,从概念界定、测量工具、影响因素与作用效果等几个
自2017年粤港澳大湾区上升为国家战略以来,粤港澳大湾区就进入快速建设和发展时期。粤港澳大湾区的发展,加速了大湾区一体化,促使多国与大湾区在贸易、科技、文化等诸多领域
<正> 一、法制新闻报道播出的频度法制新闻是以反映国家和社会的法制活动为题材的新闻。法制新闻具有真实性、时效性、知识件、接近性、悬念性、冲突性等特征,对广大受众来说
电化学氧化被认为是一种极具应用前景的废水处理技术。而电化学反应器是发生电化学氧化反应的必不可少的重要场所,因此对电化学氧化反应器的研究是电化学氧化过程强化的重要
成本监审是提高政府定价科学性的重要制度。定价成本的确定关系着价格制定的基础是否可靠、水平是否合理,成本监审工作是否有效。因此,本文对定价成本的构成以及监审方法进行
针对多色激光散斑测量技术在表面粗糙度的应用,为设计出实用的多色散斑测量仪器,以多色激光散斑测量表面粗糙度理论为依据,利用图像传感器和FPGA,设计制作硬件电路,编写软件,
为了解垃圾渗滤液对周边水环境的有机污染影响,对武汉市金口垃圾填埋场附近地表水和地下水样进行分析,探讨垃圾渗滤液对其周边水环境的有机污染影响。研究结果表明,金口垃圾
近年来,以人工智能等为代表的新一轮科技革命正推动着汽车产业的快速发展,自动驾驶汽车为解决汽车交通安全、交通拥堵、燃油消耗和空气污染问题提供了新的解决方案。在汽车自
1郾总遗产税制。该模式是就财产所有人死亡遗留的财产总额,以遗嘱执行人或遗产管理人为纳税义务人而征收的一种税制模式,即所谓的“先税后分”。其优点是:税制简便,税源易控