基于深度学习的语音分离研究

来源 :内蒙古大学 | 被引量 : 9次 | 上传用户:tank12134
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离将目标语音从背景噪声中分离出来,去除了语音中的噪声,提高了听感知质量和可懂度,可广泛应用于助听器、移动通讯、语音识别、说话人识别等领域。基于深度学习的方法将语音分离形式化为一个机器学习问题,通过训练学习器,将输入的带噪语音转换为纯净的目标语音。与传统处理手段相比,这一方法大幅度地提升了语音分离的性能,具有广阔的研究前景。本文关注于语音分离问题,针对其中的主要问题提出了新思路和新方法。本文的创新点和主要贡献体现在以下几个方面:1.提出了将时频掩蔽目标和频谱映射目标相互融合的集成学习方法。通过比较训练目标不相同的分离模型的输出,发现了两类目标的互补性质,将多目标深度神经网络作为分离模型,同时预测时频掩蔽目标和频谱映射目标,在此基础上,比较研究了多种融合手段,最终采用多层感知器进行结果融合,并将分离模型与融合模型联合训练、整体优化。本方法充分利用了两类目标提供的互补信息,提高了系统的分离性能。2.提出了基于卷积神经网络的语音基音估计方法。通过对和语音基音直接对应的谐波结构的分析,发现了谐波结构在线性频谱中具有平移不变性的现象,因而提出使用能够建模平移不变性的卷积神经网络来刻画谐波结构,提升了语音基音估计的准确率。3.提出了语音分离和基音估计联合算法。通过对语音分离和基音估计两个任务的分析,我们发现对于语音分离任务,基音是有高度区分性的鲁棒特征。同时,对于基音估计任务,语音分离可以去除噪声,提升基音估计的准确率。因此,语音分离和基音估计可以相互促进共同提高。所以,提出了将两者相结合的联合算法,交替处理语音分离和基音估计两个任务,并将这一过程作为一个处理模块,嵌入到深度层叠网络中,自然地完成多次迭代,随着网络深度的加深,两个任务的性能都得到了提升。4.提出了单声道和多声道语音增强联合算法。通过对单声道和多声道的语音增强方法的分析,发现单声道语音分离可以减少噪声,提高麦克风阵列的导向向量估计的准确率,进而提升多声道语音增强的性能。同时,多声道语音增强可以提供单声道分离所需要的跨声道信息。因此,单声道和多声道语音增强方法可以相互促进共同提高。所以,提出了将两者结合的联合算法,交替进行单声道和多声道的语音增强工作,并将这一过程嵌入到深度层叠网络中,提升了语音增强的性能。本文介绍了目前流行的语音分离方法,总结了它们的优缺点,详细讨论了深度学习框架下的语音分离的处理过程、系统结构和研究方法,提出了多种提升语音分离相关任务性能的方法,并构建了实验系统,实验结果表明分离性能有了较大提升。
其他文献
本文详细分析了数学公式的逻辑结构特点和现有数学公式检索系统所采用的检索机制,并结合当前数学公式检索系统的研究成果,进行了关于数学公式索引和检索方面的研究工作。首先,通
随着机器设备的迅速发展和应用领域的不断扩大,快速准确地采集和捕捉机器的故障信息,已成为保障工业生产效率和安全的重要基础。声音作为机器工作时发出的一种音频信号,必然
构建无线传感器网络时,人们要事先布置少量的锚节点,这些锚节点的位置信息已知。锚节点可以通过一些方式进行自我定位。由于锚节点自我定位的成本较高,在网络中不可能使每个节点
高性能科学计算的需求不断增加,而传统电子计算机的元器件制作工艺已近极限,科学界正在寻找全新的计算模型,来突破现有计算体系的限制。生物计算以其并行性高、能耗低、信息存储
目前多数的自然语言处理任务尽管都基于数据驱动的方法,但引入语言学知识能有效改善性能却已成为研究人员的共识。语言学家已经发现韵律信息包含了重要语言学信息,认为韵律不仅
无线传感器网络是融合了计算机网络技术与微机电系统(MEMS)方面的一种先进技术,有着很多应用,如目标跟踪、生活环境监测、灾害管理、智能家居应用等。传感器网络由大量的传感
矿井机车无人驾驶系统在设计时具有较高的安全要求,属于典型的安全关键系统。然而,在安全关键系统软件的设计过程中,传统上基于软件工程的方法,一方面,在需求分析阶段,由于自然语言
虚拟手术是虚拟现实在医学领域的应用,它在计算机中生成一个逼真的手术场景,可以用来模拟手术过程中可能遇到的各种现象。虚拟手术可用于外科医生培训、手术效果预测、手术方案
云计算思想的提出起源于对计算服务边界的经济学定义,它是一种利用互联网实现按需、便捷访问共享资源池(如计算设施、存储设备、应用服务程序等)的计算模式。云计算采用虚拟化技
极限学习器(Extreme learning machine, ELM)是训练单隐含层前馈神经网络有效学习算法。ELM克服了基于梯度的学习算法的很多不足,如局部极小、不合适的学习速率、学习速度慢等