基于U型网络和音频指纹的音乐分离方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:plutoBSD
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,语音处理的效果得到了显著的提升,语音分离作为语音处理的基础任务之一,受到了广泛关注。探索结合音频指纹检索的音乐分离方法,具体工作有基于U型网络架构的分离模型的改进和基于背景音乐音频指纹检索的分离再优化。为实现音频指纹检索构建了音频指纹数据库。首先提出了一种基于深度学习的端到端的音乐人声分离模型。该模型基于U型网络的架构进行设计,分为编码器部分和解码器两部分,这两部分采用了时序卷积残差模块,该模块的第一部分是一组在时域上的波形一维卷积滤波器,用于捕捉语音信号中不同的局部信息,对应于不同的周期信号分量;该模块的第二部分采用的是残差结构,用于支持基于深层网络的特征提取。在公开语料集MUSDB18数据集上的实验结果表明提出的方法在一些方面较传统的基于时频谱图的方法和常用的基于波形的方法具有优势。此外,还通过引入二值掩蔽作为后处理模块,显著提升了特定音乐成分的分离效果。在使用U型网络结构实现音乐分离的基础上,又提出了使用背景音乐音频指纹检索技术来进一步优化音乐分离效果。音频指纹检索模块首先构建了音频指纹数据库,通过landmark指纹构建算法将音频的特征转化为指纹,用于再分离阶段背景音乐指纹数据库的构建和匹配。具体过程如下:利用U型网络分离出来的背景音乐,在纯净的背景音乐库中进行检索,将检索到的背景音乐用于原始音频的再分离;再分离阶段对检索出的音频片段和原始音频进行时间和音量上的对齐操作,并用混合音频的波形减去检索出的音频片段,可以得到较为纯净的人声。通过实验结果表明,提出的基于音频指纹检索的音乐再分离策略能有效提高语音分离效果,分离效果差距较大的模型引入检索再分离模块后,分离效果差距明显缩小,充分验证了基于音频指纹检索的音乐再分离策略具有很好鲁棒性。本课题主要的贡献有以下两方面:一是提出了一种新的音乐人声分离模型,在某些方面取得了较突出的效果;二是创新性地使用了音频检索技术来进一步优化音乐分离任务,实现了更好分离的效果。
其他文献
21世纪以来,人类社会的科学技术迅猛发展,不仅改变着人们的生活方式,还极大地丰富了人们的精神生活。身处于高科技时代的我们,时时刻刻都能感受到科学技术变革所带来的影响。作为英国“高技派”建筑的重要代表人物之一,当代著名建筑大师,尼古拉斯·格雷姆肖在这样的时代背景下,凭借其高超的建筑技术水平以及艺术家般的想象力在半个多世纪的建筑创作生涯中创造了许多经典的作品,并且在探索新材料以及运用新兴建筑技术等方面
考虑化学效应的多场耦合问题的广泛存在于航空航天、新能源、新材料与生物医学等前沿领域。关于力化学耦合问题本构等方面的理论已有大量研究,但是数值求解手段有限。本文基于显式率型的广义变分原理,建立了力化学杂交单元列式,并与传统不可约单元进行了比较。本文主要研究工作如下:为了便于数值算法的开发,提出了一种显式的率型泛函表达,通过对该泛函的变分,可得描述所研究力化学耦合问题的等价数学形式。基于所建立的显式率
随着新兴数字技术在建筑领域的运用,建筑数字化设计在向着更加科学化和实用化的方向发展。建筑设计中的形式美学和各项性能逐渐呈现出多样性和复杂性趋势,以往建筑的设计、制图、建造呈现的是一种线性且分离的流程,这种信息单向叠加的模式对设计意图的转达和设计方式都造成了很大的局限性。设计信息由单向度到共享式,设计手法由针对形式到针对建造,已是数字化技术在建筑领域发展的必然趋势。本文首先以实现结构性能化设计为目的
随着信息技术迅猛发展和广泛应用,教育信息化、建筑智慧化趋势对中小学教学模式及建筑设计产生了巨大影响,在此背景下传统中小学逐渐向智慧学校转型。本文针对中小学教学空间,首先通过文献研究及问卷调研,采集数据分析当下中小学教学空间存在的问题及空间需求,并归纳智慧学校理念中信息化技术整合多元教学、互联集成优化全方位管理、泛在深度教育延续学习发展、交互感知提升校园环境四个要点。然后,耦合智慧学校理念与中小学教
在全球节能减排的背景下,“被动式建筑”因其高气候适应性、低能耗、低碳排等特征成为建筑行业大力推行的建筑形式之一。作为我国典型的传统建筑类型,木构建筑具有良好的热工属性,随着建筑材料及建设技术的进步,被动式木构建筑在我国严寒地区具有广泛的应用价值与前景。本文对严寒地区被动式木构建筑特性进行归纳总结,论证木构与被动式建筑的内在耦合性,以全生命周期理论进行定量研究,建构典型被动式木构建筑与混凝土结构建筑
现有广场由于追求增量发展,忽略品质建设与场所精神营造,导致广场空间场所精神缺失和淡化。同时设计师与使用者之间的隔阂是当前建筑与城市设计面临的困境之一,由于所处立场不同,建筑师对于什么是公众向往的生活方式可能存有理解偏差,导致两者对于场所精神的认知存在差异。本研究旨在通过对场所精神进行内涵解读初步得出其构成范畴,依据构成范畴对广场使用者进行深入访谈,建立基于使用者视角的“广场空间场所精神影响因素”理
在养老机构中,居室不仅是满足老年人最基本生活需求的场所,还能对身体、感官和认知等方面的功能损伤提供环境支持。居室空间质量对老年人的生活质量影响显著。目前老年人居室的相关研究多采用定性法,由于缺乏定量指标,无法为环境优化提供依据。使用后评价的方法侧重于整体体验,缺乏对视觉环境的深入研究。而居室的视觉环境对老年人维持正常生活状态有着重要作用。老年人的定量分析工具还有待研究。本文建立一种专门针对老年人居
城市历史街区作为城市空间的重要构成部分,其热环境质量深刻影响着市民的日常生活方式。在不改变建筑的条件下,提升街谷树木遮荫是改善街区热环境质量,提升热舒适度的重要途径。本文使用了一种基于大数据和机器学习的快速、大规模计算城市街谷树木遮阴量的技术手段对哈尔滨典型历史街区的树木遮阴性能进行了评价并从数值及空间维度提出其更新策略。为其他中东铁路文化影响下的东北城市历史街区及整个城市树木遮阴评价及更新提供参
煤矿开采推动了社会和经济发展,却也为城市生态系统和人民生产生活带来了诸多恶劣的影响,随着资源渐渐枯竭,矿井逐一关闭,矿业城市生态矛盾逐渐加剧。以往的生态修复规划主要针对位于城市远郊中的矿业废弃地,对紧邻或位于建成区内、与人民生产生活空间高度交叉、对人民生产生活产生巨大直接影响的城市矿业废弃地却鲜有研究。现有的生态修复规划着眼于生态系统结构和过程,主要关注土壤和植被修复等,忽视了与城市社会经济可持续
随着海上打捞技术的不断发展,未来海上打捞机器人将向着自动化、机械化、高精度的方向发展,对海上高价值漂浮物的高效率回收将愈加广泛且重要。针对目前在高海况下的打捞,还不能实现自动化等问题,首次开展了重型自动打捞机器人项目的研究,本文针对应用于此项目的半实物仿真系统,对其建模和打捞模拟进行了展开研究。本文针对打捞机器人的具体结构,应用标准D-H参数法建立了打捞机器人的D-H坐标系,建立了机器人各关节和末