基于计算听觉场景分析和深度神经网络的混响语音分离

来源 :太原理工大学 | 被引量 : 1次 | 上传用户:lenchoguo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在自然听觉环境中,语音信号被噪声源和混响所污染,人类拥有强大的听觉感知能力,在各种不利的条件下,也能够分辨出自己感兴趣的声音。利用计算机模拟这一感知能力是语音信号处理领域的热点课题。解决真实环境中语音分离的问题对很多应用必不可少,比如自动语音识别,音频信息检索和听觉恢复技术。封闭空间中,声音信号在各墙面或障碍物发生反射和衍射形成混响。到达麦克风的信号不仅有直达声还有前期反射和后期反射。混响相当于直达声和房间脉冲响应的卷积,在时域和频域扭曲了语音的声谱。启发于人类听觉场景分析,基于感知原则的计算听觉场景分析可用来处理语音分离问题。本文对混响环境下的语音分离问题进行研究,针对混响环境下语音信号谐波结构被破坏,传统的语音分离算法不稳定的问题,提出了两种混响语音分离的系统模型。本文的创新点主要有:1.计算听觉场景分析模拟人类听觉感知能力,根据理想二值模原理,可以提取出目标语音信号。混响条件下,基音的检测准确率降低,导致系统的性能变差。针对这一问题,本文提出基于隐马尔可夫模型的多基音检测算法,并在时频单元标记环节采用似然比检验选择正确的训练模型,提高单元标记的准确性。2.深度神经网络在语音识别和人工智能上展现出强大的学习能力,本文提出通过训练DNN模型学习“污染”语音和纯净语音之间的频谱映射进行反混响和去噪。通过提取一连串的频谱特征,融合相邻帧时间动态信息,利用DNN进行编码频谱转换,恢复纯净语音量级频谱图,最后重构时域信号。此外,本文还提出使用DNN的特征分类能力完成双声道混响语音分离。双声道特征ITD和ILD与单声道特征GFCC融合组成长特征向量,通过RBM对DNN预训练,以完成分类任务。实验结果表明,本文提出的模型提高了分离语音的质量和可懂度,增强了系统的稳定性。
其他文献
控制光纤中光的传播速度对于实现全光通信中具有重要意义。在现有的光纤通信网络中,由于存在着过多的光-电、电-光转换过程,使目前的光通信网络不能充分利用光纤通信的带宽优势
在工业CT重建中,因重建数据量大、运算复杂度高等常导致重建时间长、重建所需硬件平台昂贵,难以满足工程需要等问题,因此在普通PC平台上实现对CT重建算法的加速成为近年来研
近年来协作通信作为一种新颖的分集技术,通过在发射端和接收端之间设置单个或多个中继使得单天线移动终端可依一定的方式实现多天线所具有的分集增益。信道编码,又称差错控制
J波在心电信号上的出现预示着恶性心律失常、心肌梗塞、心脏性猝死等一系列致命性心脏疾病可能会发生。如何从心电信号中快速准确的检测出J波,给出适当的治疗方案来减少患者
GSM是全球使用最为广泛的一种无线通信标准,不仅在民用领域,也在铁路GSM-R等专用领域发挥着极为重要的作用。中国铁路GSM-R系统工作在885-889/930-934MHz频段范围中,共4MHz带
在煤矿生产现场,测量围岩位移距离多采用超声波测距法。超声波测距原理简单,设备成本低廉,设计简单易行。但是巷道中条件恶劣,噪音干扰大,极大影响了超声波设备的正常使用,并
随着经济的发展,社会对能源的需求越来越大。油田中的采油系统分布相对较为稀疏,油罐储存和传输的过程中需要对油温进行加热来避免原油凝固,同时每个井口的分布位置相对较远,需要
无线传感器网络是当今无线通信研究的重点,可以广泛的应用于各种领域。由于无线传感器网络的信道比有线传感器网络的信道更容易受到干扰,在战场、医疗、矿井等对数据准确性很
随着汽车拥有量急剧上涨,智能交通成为一个新兴的研究方向。图像处理技术是智能交通系统的重要前沿研究领域,具有十分重要的理论意义和应用价值。本文主要研究对车牌图像、车
射频识别(Radio Frequency Identification,RFID)是一项以应用为目的、以电子信息技术为特色的跨学科技术,该技术主要是通过无线电信号,非接触式的在阅读器与标签之间双向传递信