基于深度学习的歌声分离算法研究

来源 :浙江理工大学 | 被引量 : 0次 | 上传用户:bbanb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术的快速发展,数字音乐的数量激增,面对海量音乐数据,人们对音乐检索、歌曲识别等信号处理技术的需求日益增加。其中,歌声分离是指将人声和伴奏从歌曲中分离,是这些技术的关键预处理环节,具有重要的研究价值。传统歌声分离算法主要基于音频先验知识进行建模,存在限制条件,无法适用于各种不同类型的歌曲,泛化性能较差。近年来,深度学习在图像分割领域展现出了优秀的性能,因此涌现出许多基于深度学习的歌声分离算法。这些算法大多通过时频变换在频域上建模,将歌曲的幅值谱图作为输入,经过深度神经网络后,得到人声和伴奏的幅值谱图,最后结合原歌曲相位谱图,重构出人声和伴奏信号。深度学习方法可以自动学习到深层次特征,具有较好的分离性能,但是仍存在一些问题。本文的主要工作内容和成果如下:(1)针对现有歌声分离算法中串行U型网络分离精度不高的问题,提出一种基于高分辨率网络和自注意力机制的歌声分离算法。高分辨率网络将多个不同分辨率的子网络并行连接,同时子网络间特征互相交换融合,实现了像素级的预测精度,保证了分离后人声和伴奏信号的质量。另外,考虑到歌曲中存在重复旋律,在高分辨率网络中融入自注意力机制,用来捕捉重复旋律的依赖关系,增强网络的特征表达能力。在MUSDB18数据集上的实验表明,该算法可以有效地分离出高质量人声和伴奏,分离得到的人声和伴奏信号偏差比指标分别达到了7.68 d B和12.85 d B。(2)针对密集连接网络计算量大,幅值谱图数据分布不均,分离信号纯净度不高的问题,提出一种基于改进嵌套U型网络的歌声分离算法。首先,使用双层嵌套U型网络作为主干网络,相比于密集连接网络,同等参数量条件下,该网络的计算量更小。其次,在网络中添加频率维度的全连接层,改变幅值谱图数据分布的同时,增强网络提取全局特征的能力。最后,通过结合理想比例掩膜和理想二值掩膜构造新的损失函数,提升分离信号的纯净度。在MUSDB18数据集上的实验表明,该算法的分离性能优秀,分离得到的人声和伴奏信号音质好、纯净度高。
其他文献
人类利用不可再生能源进行散热产生的热污染,致使城市热岛效应和全球变暖等现象越发严重。环境温度的增长无疑给人类社会带来高电力需求,经济生产率下降,甚至造成生态危害等问题。日间被动辐射制冷(PDRC)这种既无能耗又具有实际应用前景的冷却技术,有望在一定程度上减少地球所承载的二氧化碳排放量,从而降低地球对太阳的辐射热吸收,同时将热量向低温的太空释放,使地球温度得以稳定。近年来,人们设计了多种PDRC结构
学位
我国是石油进口大国,近年来进口原油的品质趋向重质化和劣质化,在加氢精制和加氢裂化等油品深度加工过程中生成大量易结晶气体组分,造成加氢反应流出物系统产生铵盐结晶沉积腐蚀,严重危害冷换设备及管道的运行安全。尽管石化企业大多采用注水的方式降低腐蚀风险,但由于缺乏注水对铵盐结晶风险的影响规律研究,且未充分考虑喷雾雾化和易结晶组分吸收效率之间的关联关系,导致实际注水防护效果不佳,因铵盐结晶腐蚀导致的失效事故
学位
<正>语文作为小学阶段的基础科目之一,对学生的语言能力培养非常重要。小学生又处在性格、行为、习惯养成的关键时期,借助各个学科的教学,不仅能使学生掌握基础的文化知识,还能培养学生正确的价值观。在课堂上,语文教师也应当善于借助问题导学法,引发学生深度思考。本文详细阐述在小学语文教学中问题导学法的应用。一、小学语文教学中开展问题导学的突出问题(一)课堂教学任务较重观察现阶段小学语文教学情况可发现,
期刊
拉曼光谱是分子振动光谱,由于散射信号弱从而限制了其应用,而表面增强拉曼散射(Surface-Enhanced Raman Scattering,SERS)光谱克服了散射信号弱的缺点。目前SERS技术已成为一种高效的分析检测技术,具有灵敏性高、快速检测和不受水相干扰等优点,在环境监测和食品安全等领域得到广泛应用。与SERS应用的研究进展相比,SERS机理的研究存在争议,这是因为入射光、吸附分子和金属
学位
肝癌是世界上排名第六的癌症,也是最难以治愈的癌症。目前治疗的肝癌主要方式包括手术切除、肝移植、放化疗及射频消融等。鉴于肝癌发病隐匿且复发率高,目前的治疗手段难以有效延续患者生存期,临床急需新的肝癌治疗方法。溶瘤痘苗病毒因治疗效果好,靶向性佳,安全性高等优势出现在人们的视野中,进而成为新型肿瘤治疗药物。然而,尽管众多重组溶瘤病毒的临床前数据非常出色,但能成功通过临床实验的依然寥寥无几。将溶瘤病毒作为
学位
间隙量是指着装状态下人体与服装间的空隙部分,对服装的舒适性、合体程度、防护性能等有着重要影响,也是三维服装设计是否合理的重要评价指标。除了通过面料力学性能、松量分配、热湿舒适性评价等角度研究服装间隙量以外,随着三维虚拟现实技术的发展,利用三维模型量化表征间隙量分布逐渐成为热点。有限元作为数值模拟的方法,由于可以描述复杂的几何结构和非线性材料属性,也被运用于服装舒适性评价、功能性服装开发等领域。目前
学位
<正>《普通高中语文课程标准(2017年版)》强调:“真实、富有意义的语文实践活动情境创设是语文核心素养生成、发展和表现的载体”。[1]“问题导学”就是新的教学情境,以问题引导学习,是基于课程改革背景下的一种创新的教学体系,该体系以构建主义教育理论为依托,通过教师设置具有挑战性的问题引导学生主动探究与学习,
期刊
问题导学法是现代教学中提升课堂教学最有效的方式之一,旨在以学生为学习的主体,通过教师的引导培养学生自学能力和自学习惯的养成,要求教师教会学生如何去学习、如何思考、如何分析问题和解决问题。本文从问题导学的意义出发对教师如何激活学生思维展开研究和探讨。
期刊
随着人口的快速增长和工业的迅速发展,化石燃料的消耗正在以前所未有的速度大幅增加。因此,人们正在不断地寻找可再生的清洁替代能源,以及有效提取能源的新方法。氢能因其极高的能量密度和无污染的副产物而被认为是未来可持续能源体系中最有前途的能源载体。以电和太阳光作为能量驱动,利用催化剂作为中间媒介将太阳能转换为氢能是未来制氢的主流趋势。因此,寻找高效、稳定且廉价的催化剂材料已成为氢能开发的重中之重。过渡金属
学位
学位