基于深层神经网络的语音分离方法研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:smallAppleA
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在现实环境中,人类的目标语音信号通常会被噪声干扰,这会严重降低语音的可懂度,从而降低语音识别系统的性能。针对噪声干扰,前端语音分离技术是降噪过程中最常用的方法之一。一个好的前端语音分离系统能够极大地提高语音的可懂度和自动语音识别系统的性能。语音分离已在诸多领域展现出很好的前景,但也存在大量的不足与挑战。语音信号的复杂性使得即使是同一类语音信号的声学特征也存在很大的差异,这对语音分离系统的学习能力和泛化能力都提出了更高的要求,此外,现实环境中语音信号存在的重叠性也给目标特性的提取带来了困难。因此,相比于语音识别等传统音频信号处理技术,语音信号的分离性能还存在差距。语音分离技术是一种从混合语音中分离出目标语音的技术,语音分离技术涉及的应用领域十分广泛,其中包括语音通话、电话会议、场景录音、军事窃听、语音识别系统、助听器设备和语音识别设备等。为提高语音分离系统的性能,本文主要从网络设计、特征选择和学习目标三个方面入手,主要工作和贡献如下:(1)在网络框架设计方面,研究传统模式识别分类器的原理和方法特点,实现基于传统分类器的语音分离。理解神经网络的原理和方法特点,结合卷积神经网络和全连接网络,设计深度堆叠残差网络,将传统特征与频谱信息一起作为网络的输入,实验表明本文算法在语音可懂度和语音质量方面相比于现有的一些算法都有一定的提升。(2)在特征选择方面,研究烟花算法的原理和方法特点,将烟花算法应用于特征选择中,针对传统语音分离中存在的特征区分性不高的问题,提出来改进的语音分离模型,通过加入特征选择用来保证提取特征的有效性。(3)在学习目标方面,提出了基于理想二值掩蔽和理想浮值掩蔽的混合掩蔽,经实验证明在语音质量上相比于理想浮值掩蔽方法PESQ提升了1.6%。本文对以上三个工作做了充分的对比实验,实验结果表明这些方法在语音质量和可懂度上都有较大的提升。
其他文献
微表情是一种发生非常迅速的表情,持续时间一般情况下只有1/25s~1/5s,发生时动作幅度微小,人很难凭借肉眼直接察觉,其同时是一种无法抑制且无法伪造的自发式表情,更适合作为人类真实心理想法的依据,在心理研究、公共安全、商务谈判等领域具有更强的适用性。目前微表情识别方法仍多依赖于手工提取特征,费时费力且能够提取到的特征有限,导致最终识别结果不理想。随着技术发展,已有研究人员将深度学习算法引入到微表
海洋无线传感器网络是由大量漂浮在海上的具有无线通信能力和一定数据处理能力的传感器节点组成的自组织的网络,由于其具有成本低、易布放、可大规模组网等特点,在海洋观测与探测方面具有广泛的应用。但是,受海上恶劣的天气环境与复杂的电磁环境影响,海洋无线传感器网络节点之间的传输非常不可靠。基于此,本文提出了一种宏分集接收的传输架构,并设计了一种低复杂度的级联分集合并方案,以提高系统传输可靠性。具体而言:首先,
基于LoRa(Long Range)的无线传感器网络具有功耗低、覆盖广的优势,可为广阔的区域提供高可靠、大规模的传感网络覆盖。然而部署环境的复杂多变以及节点间的碰撞造成了通信链路质量不可靠,导致无线传感器网络通信性能变差。针对上述问题,设计了基于LoRa的通信系统,从实地测试出发,研究了复杂场景下链路质量的分布特征,分析了LoRa物理层参数对不可靠链路性能的影响,从优化物理层参数配置和多址接入协议
无线传感器网络是一种集信息采集、处理和传输功能于一体的智能网络系统,具有灵活性高、成本低、自组织性高等特点,在军事、环境监测、智慧城市、农林渔牧以及健康医疗等领域均有较为广泛的应用前景。由于无线传感器网络节点资源受限,并经常部署在一些恶劣的环境中,数据传输会受到多径衰落、节点失效、链路中断、路径损耗、阴影效应等不利因素的影响,易造成数据包的丢失,所以数据传输往往得不到保障。本文主要针对无线传感器网
近年来,可贴合皮肤的柔性传感器在机器人技术、可穿戴电子与健康生理指标监控系统、人机交互接口等方面具有巨大应用潜力。柔性传感器能够更好的贴合像皮肤一样的复杂曲面,也可获得更加精确的测量结果。在几种常见传感器类型中,温度传感器阵列尤其值得重视,因为其在几个关键的潜在应用中起着重要作用,例如电子器件的热量监控,人体温度分布表征和物流、冷链过程的智能监控。关于柔性传感器的制备技术,印刷法是一种区别于传统高
世界上有许多人存在听力损失,佩戴助听器是目前除药物治疗外主要的治疗手段,佩戴助听器之前需要对助听器进行验配,助听器验配工作需要选择合适的助听器验配公式以达到好的听力补偿效果。而目前的助听器验配工作对于不同的听力损失患者需要选择不同的助听器验配公式以达到最优的验配效果,这给助听器的验配工作带来了极大的不便,因此本文提出了一种基于人工神经网络的助听器验配公式来解决这个问题。本文通过对验配助听器所需的关
最优控制问题是现代控制理论研究的热点之一,主要目标是选取一个容许的控制律,对被控对象的动态特征进行控制,实现性能指标的最优化。自适应动态规划能够通过函数近似结构逼近系统的代价函数和控制律,很好的规避了一般动态规划方法的“维数灾”问题,是目前有效解决复杂非线性系统最优控制问题的最有效方法之一。因此,将自适应动态规划和最优控制理论相结合具有重要意义,能够解决系统控制中存在的多种问题,从而大大提高控制性
水下图像在获取海洋信息方面具有重要作用,但由于水中不同波长的光衰减速度不同,使得水下图像会产生颜色失真,水下光照强度不足会使得水下图像对比度低,这严重影响了水下图像的进一步利用,因此需要修正色偏、增强图像的对比度以获取清晰的水下图像。基于生成对抗网络的水下图像清晰化方法通过数据驱动的方式训练网络,可处理多种水下图像退化问题,有较好的鲁棒性。本文基于生成对抗网络研究水下图像清晰化问题,主要工作如下:
精神分裂症是一种严重的精神疾病,具有复杂的神经机制,其病发原因至今尚未明确。同时其临床症状涉及到思维、情感和行为等多个方面,且存在明显的个体差异性,使得对于病情的诊断较为困难。由于精神分裂症是一种神经发育异常疾病,研究患者的大脑机制变化,对其病理的揭示以及患者的合理治疗都有重要的意义。静息态功能磁共振成像(fMRI)是一种非侵入式脑影像采集技术,能够记录脑神经在基线状态下的自发活动,被广泛应用在各
电子散斑干涉(Electronic Speckle Pattern Interferometery,ESPI)测量技术作为一种重要的光学无损检测技术,目前已被广泛应用于科学研究及实际工程领域。在电子散斑干涉测量技术中,待测物理量与编码在条纹中的相位信息直接相关。准确地从条纹图中提取相位信息是电子散斑干涉测量技术成功应用的关键。因此本文针对电子散斑干涉条纹图相位准确提取中涉及的一些技术开展了以下研究