基于深度学习的音乐相似度检测方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:wenhao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
音乐相似度检测是音乐信息检索领域的一个重要分支,对于辅助鉴定音乐抄袭以及其他基于音乐内容的检索、审查有积极作用。准确而且适当的音乐特征提取对于提高音乐信息检索的效率具有重要意义。音乐相似度的含义较为丰富,音乐之间相似性可以归纳为情感相似、乐理特征相似、流派相似等。在翻唱、抄袭检测的应用场景中,应当侧重比对音乐内容、乐理特征的相似。现有音乐相似度检测方法主要有两个问题:一、音乐主旋律及其他音乐特征提取的准确度有待提升。二、使用传统方法进行音乐相似度比对准确度表现不佳,在特征提取方面缺乏灵活性。针对以上问题,本文提出了一种基于深度学习的音乐相似度检测方法,研究了不同底层特征及深度学习模型结构对音乐主旋律的提取的影响和深度学习在音乐相似度中的应用。本文研究的主要内容如下:1、为减少音乐信息的干扰,本文首先提取音乐主旋律。由于卷积神经网络在图像处理的领域具有一定优势,研究将使用基于卷积神经网络的编码器-解码器结构的语义分割(Segmentation)模型进行主旋律提取。在输入方面,将音频转换为二维的广义倒谱特征(Generalized Cepstrum,GC)和范围广义倒谱(Generalized Cepstrum of Spectrum,GCOS),并手动提取梅尔倒谱系数(Mel cepstral coefficient,MFCC)和色度特征(Chroma Feature),以多通道的方式融入输入数据中,使输入数据包含基础音乐信息。此外,实验中将基于通道的注意力机制加入语义分割模型中。实验结果表明,加入人工特征后模型训练的收敛速度加快。加入注意力机制后的多特征融合模型相比基线整体准确率有所提升,同时使得虚警率有一定的下降。2、由于音乐具有时序性,并且音乐在上下文有一定的联系,本文使用双向长短时记忆网络结合注意力机制的模型结构对输入数据进行编码。在输入方面,本文主要选取主旋律音高作为主要特征,另外选用音调、节奏这两个重要的音乐内容特征进行对比。数据方面,本文中使用的数据集将数据分类为不同的音调簇,并进行了编码,同簇内的数据距离较近。实验方面,本文将分为三部分,分别对比注意力机制、距离公式、音乐特征对结果的影响,并展示了从主旋律提取开始,整个过程的实际效果。实验结果表明,加入注意力机制的双向长短时记忆网络能获得更高的准确率,将损失函数设为余弦距离对于增大聚簇的区分度更有帮助;主旋律音高与节奏特征结合作为输入数据效果更好。
其他文献
随着地铁数量的不断增加,地铁车站工作人员和乘客的舒适性和安全性越来越受到人们的重视。对于地铁站内的环境状况进行分析和预测已成为决策和行动的重要依据。传统的点预测方法的输出结果是未来一段时间内的环境参数的具体数值,如果预测模型输出的结果是基于不同置信度的概率值而不是精确数值的话,可能更接近实际情况的要求。因此,本文提出了基于自回归长短时记忆(LSTM)神经网络的地铁车站环境参数概率预测方法,对地铁车
随着人工智能的崛起,人机交互操作系统已经在很多领域广泛应用,尤其是要求精准度和高危的领域,例如:空中交通管理系统,飞机驾驶系统和深海潜行系统等。操作人员在执行任务时需要具备良好的工作状态,分析脑力负荷水平,可以判断其脑力负荷状态,保证人员安全和任务有效执行。因此通过判断操作人员脑力负荷状态并对其进行准确辨识很有意义。常用的脑力负荷辨识方法是基于脑电信号(electroencephalogram,E
近年来,随着深度学习的发展,其在各个领域都应用广泛。但在实际中,深度学习仍存在许多问题。首先获取一个性能良好的深度学习模型需要大规模的标记样本对其进行训练,但是给样本做标注的过程既浪费时间又浪费劳动力。其次,深度学习模型使用当前场景下的数据进行训练和测试的效果较好,但是当测试数据与训练数据存在分布差异时,深度学习模型的泛化能力明显下降。这就导致要花费大量人力物力重新标注样本,并对模型再次进行训练。
圆周扫描地基SAR是将机载圆迹SAR模式引入地基平台的一种新体制地基SAR,与传统的直线轨道地基SAR相比,其具有三维成像能力、单次数据采集时间短、滑坡监测时效性强等优势。近年来,研制具备三维成像能力的地基SAR系统已成为一个国际研究热点。作为一种全新的地基SAR模型,圆周扫描地基SAR仍处于刚起步的阶段。目前,国际上已经验证了利用该模式三维成像的可行性,但其三维成像质量与实际应用中的成像质量要求
计算机技术发展以来,人机交互成为了计算机领域主要研究的内容之一。随着人工智能技术的快速发展,越来越多的人机交互成果被使用在生活中,同时驱动着机器视觉中与人脸相关的大量研究与应用,人脸表情是其中重要的组成部分。生成对抗网络(GANs)自2014年提出,被广泛应用在文本、图像等领域。学者们利用其优秀的生成能力进行人脸研究并且取得一些成果。但是近几年的研究发现,GANs在有限样本的情况下容易产生欠拟合,
光纤预警系统(Optical Fiber Pre-warning System,OFPS)是一种铺设于管道周围、利用分布式光纤传感的预警系统,因具备稳定且精确度较高的特点,被广泛应用于检测管道泄露、人为或机械等入侵行为。OFPS在检测到信号入侵后,识别部分可以通过算法判断入侵信号的类型,依据信号的危险程度采取不同的手段及时止损。目前,在OFPS领域已经有很多成熟的检测与识别算法,但如何判断振动信号
在工业生产中普遍存在时间序列样本不平衡的问题,即正常情况下的样本数量远远大于异常情况下的样本数量。在电解铝行业中这个问题更加的明显,因为在工业生产中发现异常样本是非常困难的,专家没有一个明确的准则来判断异常。近年来,生成对抗网络(GANs)在异常检测领域越来越流行,在本文中,我们利用生成对抗网络(GANs)能够对复杂的高维图像分布进行建模的能力,提出了一种基于输入样本自适应改变的对抗自编码器生成对
云计算作为一种信息处理基础设施模式和商业模式,逐步得到广泛认可。云服务的执行离不开服务执行环境所提供的计算资源和数据支撑。数据及其负载作为服务执行环境的重要支撑,同样也影响着服务质量。在数据负载不断出现波动的时候,服务执行环境的稳定是确保服务质量的关键一环。为确保服务执行环境的稳定,基于数据负载趋势并主动调配资源是目前较为流行的系统管理方法。本文以提高服务质量为目标,基于数据负载的多维度特征,进行
随着三维点云数据被应用到越来越多的领域,如何快速、准确地识别三维点云物体逐渐成为研究的重点之一,尤其是自动驾驶这种对物体识别的实时性有较高要求的领域。由于点云具有非结构化、分布不均匀等特点,传统的深度学习网络不易直接处理。而且,庞大的网络参数和复杂的网络结构也影响着深度学习网络的运行效率。宽度学习系统虽然克服了网络运行速度较慢的问题,但其在三维点云物体识别领域的研究较少,且宽度学习系统也无法直接处
随着社会和科技的发展,人们对时间序列等数据的研究日渐深入,然而现实中的时间序列多有几种基本成分复合而成,直接对其使用单一模型进行预测,预测精度难以提高。本文研究的数据来自风云3号A星的中分辨率光谱成像仪(MERSI)的定标参数时间序列,此时间序列在长时间段上呈现上升趋势,同时短时间内又有周期性变化,同时还含有噪声。本文先鉴于集合经验模态分解(EEMD)和Seasonal-Trend decompo