基于深度神经网络的音频信号分离的研究

来源 :北京邮电大学 | 被引量 : 6次 | 上传用户:kirawu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐作为一种艺术,有着悠久的发展历史,产生了许多脍炙人口艺术作品。随着计算机性能的提升,音频处理技术也取得了极大的发展,近年来,深度学习技术被用于音频信号分离的研究,成为了音频信号处理领域日益流行的话题。推动了基于深度学习技术的音源分离领域的发展。本文选取由语音和钢琴伴奏构成的混合语音和由钢琴和小提琴构成的混合乐器音频作为研究对象。利用音频信号分析和神经网络算法进行分析和研究。分析各种音频的时域和频域特征,包括语音信号的稀疏性和音乐信号的反复性。选取音频信号的对数功率谱(129维)作为特征参数,对样本进行预处理和特征提取。实现了基于深度神经网络的音源分离模型(5Layer-DNN模型和6Layer-DNN模型)和基于卷积神经网络的音源分离模型(CNN模型)。利用5Layer-DNN模型对由语音和钢琴伴奏组成的混合语音进行音源分离,并采用PESQ指标对分离结果进行评价。通过对比40、50、60这三种迭代次数的PESQ评价结果,表明当迭代次数为50时,模型已经收敛;将5Layer-DNN模型与L-MMSE算法对比说明本文采用5Layer-DNN模型在语音源分离方面性能更优。分别利用5Layer-DNN模型、6Layer-DNN模型和CNN模型,对钢琴和小提琴两种乐器混合的音频进行音源分离。对比分析3个模型进行乐器源分离后的SDR、SIR和SAR评价指标,表明5Layer-DNN模型对混合乐器音频的钢琴分量的分离效果较好;6Layer-DNN模型对小提琴分量的分离效果更显著。而CNN模型的分离效果要差于前两者。3个模型进行乐器源分离得到的钢琴分量和小提琴分量的SIR值的平均值为9.6,并且平均主观MOS评分都在3-3.5之间(5分为满分),说明本文所用3个模型,尤其是5Layer-DNN模型对混合乐器音源分离的效果是有效的。
其他文献
摘要:ENSO(厄尔尼诺一南方涛动)事件的发生会影响区域气候变化。通过对青海东部地区5个站点1959~2005年的降水、气温资料、干燥度和海表温度距平(SSTA)与南方涛动指数(SOI)的月序列进
Although there are some multi-sensor methods for measuring the straightness and tilt errors of a linear slideway, they need to be further improved in some aspec
目的:探讨舒适护理在前列腺电切术后持续膀胱冲洗中的应用效果。方法:选择我院2018年1月-2018年12月行经尿道前列腺电切术患者34例为观察组,选择我院2017年1月-2017年12月行
20世纪70年代以来,在金融创新、金融自由化和国际金融一体化等浪潮的推动下,金融系统中的风险积累和传播速度不断加快,全球性金融危机爆发的频率明显上升。仅在过去20年间,全
目的 评估高分辨率CT(HRCT)对肺部结节性病变进行诊断时,准直器扫描宽度选择0.5和1mm对诊断结果的影响.方法 设置准直器扫描宽度为0.5和1mm,分别对64例患者的73处肺部结节性病
多余人是19世纪俄国批判现实主义文学中出现的一组人物形象,包括奥涅金、毕巧林、罗亭、奥勃洛摩夫等,他们是时代的产物,是俄国民族解放运动进入贵族革命时期出现的一批优秀
为促进我国城市图书馆稳步发展,适应人民群众不断变化的需求和对图书馆的使用方式,文章选择美国城市公共图书馆西雅图图书馆制定的规划文本,利用文献分析和案例分析法对2011
采用双线性硬化材料模型,基于小曲率弯曲变形假设,建立了预弯成形弹复理论解析模型,得到了预弯回弹后弯曲角与工艺参数之间的数学表达式。用VC软件编程进行数值计算,并进行了
在医疗纠纷中,有效应用预鉴定机制成为了近几年人们关注的焦点,要想合理性提高管控效率,相关部门就要积极整合管理体系,借助专家合议的方式得出最终的结论。本文结合具体事例
研究一种新的简单动作的识别方法,以达到在提高行为识别准确度的同时,又能有效降低计算复杂度的效果。①方法介绍:首先对进行运动分割及预处理后的图像序列建立完整的光流场,