基于深度学习的特定人单声道语音分离研究

来源 :广西师范大学 | 被引量 : 2次 | 上传用户:machao4
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音分离的目的是从混合语音信号中分离出感兴趣的目标语音信号。其在语音识别、智能家居和刑侦信息检索等领域有着重要的研究意义和应用价值。传统的单声道语音分离技术往往需要对语音信号之间做出一些独立性的假设,忽略了语音信号的时序相关性,并且由于模型结构和规模的限制,使得系统分离性能不够理想。近年来深度学习技术在图像分割、语音识别、文本分类等领域有了重大发展,这为语音分离提供了新的解决思路。本文针对传统语音分离技术存在的问题,以深度学习技术为基础,在单声道语音分离任务上进行了以下研究工作:(1)考虑到语音信号具有时序相关性,而循环神经网络(Recurrent Neural Network,RNN)具有对时序建模的天然优势,因此本文设计了一种基于RNN的分离模型以实现在频谱域上对特定人语音进行分离。针对特定说话人的分离,通过将多个非特定人语音与特定人语音进行无重叠交叉混合来构建数据集用于网络模型的训练。此外考虑到标准RNN的长期依赖问题,又在其基础上分别构建了基于长短时记忆网络(Long Short-Term Memory,LSTM)和基于双向长短时记忆网络(Bi-directional Long Short-Term Memory,BLSTM)的分离模型。三种网络模型使用相同的网络参数,实验结果表现,BLSTM模型相比RNN和LSTM模型具有更好的分离性能和泛化能力。最后,在BLSTM模型基础上,通过优化相关参数,实现了最佳分离效果,代表总体分离性能的SDR指标达到了8.82dB。(2)考虑到以上使用的BLSTM模型仍然是在频谱上进行分离,在重构时域语音信号时使用混合语音的相位来估计目标说话人语音,不可避免的对分离语音带来不利的影响,因此设计了一种基于U-Net网络改进的时域语音分离模型。U-Net网络最大特点是具有编码-解码结构和跳连接融合层,能够对输入的时域语音信号进行多尺度特征提取和融合。由于时域语音波形是一维序列,因此将原始U-Net网络卷积一维化便于对时域波形进行特征提取;为了充分利用上下文信息且避免端点信息丢失,对输入数据在卷积之前进行了边缘填充;另外增加了网络深度以获得更大的感受野来提取更深层次的特征。并在此改进网络的基础上,进一步进行了输入参数和网络层数的调整以获得更好的分离模型,最终其SDR指标达到10.27dB。最后,将基于改进的U-Net时域分离模型和基于BLSTM的频谱域分离模型在同性说话人、异性说话人以及未经训练的说话人等多种混合语音上进行了整体分离性能和泛化性能的比较,实验结果表明基于改进的U-Net时域分离模型相比BLSTM分离模型,在异性说话人测试中SDR指标提高了1.45dB,在同性说话人测试中SDR提高了1.69dB;在对未经训练的说话人测试中,指标也基本高于BLSTM模型。以上结果表明改进的U-Net时域分离网络在整体分离性能和泛化能力上都明显提高了,证实了改进的U-Net时域分离方法的有效性。
其他文献
以黄豆、红枣粉、红豆粉和枸杞粉为植物蛋白饮料的主要原辅料,研究此植物蛋白饮料的配方及其理化性质。以感官评价为指标,通过单因素实验和正交实验,考察了黄豆与辅料(红枣粉
核桃(Juglans regia L.)和铁核桃(J.sigillata Dode.)均隶属于壳斗目胡桃科(Juglandaceae)胡桃属(Juglans)胡桃组(Section Dioscaryon或Sect.Juglans),为第三纪“孑遗植物”。其中核桃广泛分布于北半球温带地区,为重要的经济树种,因其坚果和木材具有很高的营养和药用价值,生态价值,故而体现出超高的经济价值。铁核桃为胡桃属植物
阿拉伯文化在世界文明史上占有承前启后,沟通东西的重要地位。阿拉伯人用他们光辉的成就为人类作出了伟大贡献。阿拉伯文化为什么会取得如此辉煌的成就,—些人认为是由于“阿
中国古代人学思想有着特定的现代价值:一是礼法促进社会秩序化的治标作用,礼法及其伦理秩序,规范整合了整个社会生活并使之秩序化;二是“谐万民”,促进社会和谐化的治本目的,
介绍了在Windows环境下用VFP6设计和实现高校体育课学生信息管理系统的方法与方案.并集中阐述了本系统的设计思想,系统的特点,系统的主要功能结构和实现.
本文详细地研究分析了港口库场货物管理信息系统的目标体系、功能、运行环境和数据管理,给出了其逻辑设计。
肠梗阻是一种常见的临床外科急腹症,是指肠腔由于机械性梗塞或不可逆的生理位置改变(如扭转、嵌顿疝和肠套叠等)引起的内容物通过功能障碍。梗阻发生时,肠道内容物通过性受到抑
随着互联网技术的不断更新,新型的社会化媒介平台不断涌现,信息传播和互动的格局被重新定义。普通网民可以就自己感兴趣的话题自主地发表意见,并积极且频繁地与其他人进行交
人声转录作为转录任务中的一个重要分支,在近几年逐步受到了音乐计算领域学者们的关注。然而由于人声发音的不稳定性以及大型歌唱声起始点(onset)标注数据集的缺乏,对音乐中的人声进行onset检测(转录的关键性步骤)的难度远大于乐器。人声转录的效果因此受限,无法有效应用于实践。鉴于此,本文基于流行音乐进行了人声转录研究,主要研究内容与成果如下:1)提出了一种基于人声活动检测的音频切句算法。本文使用该算
前苏联作曲家德米特里·肖斯塔科维奇是20世纪享誉世界的作曲大师,他的音乐风格既包罗万象,又独树一帜。其弦乐四重奏是近现代古典音乐领域既不属于任何流派,又极其重要的室