基于机器学习的欠定语音分离方法研究

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:denggaoangyuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离技术在语音识别和说话人识别等语音处理系统中发挥着重要作用,高质量语音不仅能更好地满足入耳听觉需求,也是后续语音处理的重要保障。实际环境中的语音往往会受到干扰,这使得语音分离多年来一直受到研究者关注。语音分离的核心思想是模拟人的听觉系统从复杂的混合信号中将各路源信号单独分离出来。本文致力于研究欠定条件下的语音分离方法,主要研究成果包含以下几个方面:(1)本文提出一种将传统逐层分离与softmax分类器结合的单路源信号提取方法,该方法适用于从几路观测信号中抽取出某一路感兴趣的目标语音。首先,以目标人任意一段语音作为参考信号,然后对观测信号提取单源点并利用单源点特征训练softmax分类器,接着用训练好的softmax模型对参考信号特征进行分类,确定待提取的目标人语音,最后通过构造消源矩阵逐次消源,以分层的方式来分离各个时频点。与对比方法相比,该方法具有较低运算复杂度,同时不需要太多的先验信息。(2)基于深度神经网络强大的非线性映射和自学习能力,本文提出一种有监督的、强区分性的单通道语音分离方法。首先,本文将信号的相关系数和负熵加入目标函数,从而降低信号间的干扰。此外,为了提高学习系统的泛化能力,本文将类似人脑学习规则的课程学习融入神经网络的学习中,使得神经网络从易到难学习训练样本。不管是与基于非负矩阵分解的方法相比,还是和其他基于深度神经网络的方法比较,本文提出的方法都具备更好的分离性能。(3)本文研究了将矩阵分解和深度神经网络结合解决单通道语音分离问题。首先,分别对源信号进行矩阵分解得到字典和编码矩阵,接着用源信号编码矩阵和混合信号训练深度神经网络,用深度神经网络预测编码矩阵,最后,对于测试的混合信号,将源信号的字典和神经网络预测的编码矩阵相乘,即可恢复源信号。与传统的基于矩阵分解的单通道分离方法相比,该方法能更准确地估计编码矩阵,但需要以增加深度神经网络训练这一过程为代价。本文在TIMIT语音库上进行了一系列的计算机仿真实验,将本文提出方法与对比方法在评价体系下进行比较,实验结果证明了提出方法有更好的性能。
其他文献
学位
2G网络的基站子系统和4G网络的eNodeB系统负责用户接入和无线资源管理,在移动网络中占有重要地位。目前移动网络基站告警的传统被动响应式处理已不能满足移动运营商的网络故
全双工中继系统能够在相同频率和时间内,同时发送和接收信号,因此与半双工中继相比成倍提高频谱效率。但是由于中继收发端之间存在着信号泄漏,产生了自干扰问题,自干扰使得中
尿沉渣检查是指利用显微镜或其它分析仪器对尿液中的各种有形成分,如红细胞、白细胞、上皮细胞、管型以及结晶等进行辨析和检查,它对肾脏疾病、泌尿道疾病、循环系统疾病和感
电磁矢量传感器阵列信号处理,作为信号处理的一个重要分支,是目前学术界研究的热点问题。电磁矢量传感器(EMVS)由于能够感知电磁波的极化特性,与标量传感器相比,在波达方向(D
数字图像修补技术是图像处理领域的一个重要分支,在污损图像修补、广告和视频图像传输等方面得到广泛应用。本文围绕基于偏微分方程(PDE)的图像修补的原理、数值应用实现以及
图像显著性检测是计算机视觉研究领域重要的一环,在计算机视觉的各个领域得到广泛的应用,作为图像预处理步骤,能够获取视觉感兴趣区域,去除图像中的冗余信息,提高图像处理效
近年来,室内定位技术在现代社会中扮演了越来越重要的角色。一般来说,室内定位方法包括参数化定位方法和非参数化定位方法。在这些方法中,非参数化定位方法中的位置指纹定位
现代战争正经历着一场由机械化战争向信息化战争的转变。信息战的核心是在大量使用信息技术和信息武器的基础上,争夺对战场的信息控制权。新一代作战系统的特点是通过多个传
随着计算机网络通信技术的飞速发展,网络已成为传播和交流信息的重要途径,随之而来的多媒体信息保密通信问题迫切需要解决。数字图像作为信息的重要载体,其加密技术成为了一