论文部分内容阅读
音乐旋律是对应主音中音高的基频值序列,作为音乐的中高级语义,可以用于对音乐内容的描述,并且可以作为哼唱检索系统、音乐流派分类和音乐情感识别等相关应用的前端或中间处理步骤,从而使得音乐旋律的提取及其应用成为音乐信息检索领域的研究热点。本文针对基于显著性的音乐旋律提取方法以及音乐旋律在音乐情感识别中的应用进行了相关研究,主要的研究内容如下:1.针对音乐中不同声源的相互干扰而导致同一声源音高序列的不连续,从而降低音高估计精度的问题,提出改进音高轮廓创建和选择的旋律提取算法。算法首先利用音高显著性的连续性,提出基于听觉流线索和音高显著性的连续性创建音高轮廓;为了进一步选择旋律音高轮廓,提出采用动态时间规整算法计算旋律和非旋律音高轮廓间的相似度来去除非旋律音高轮廓;最后,提出采用相邻音高轮廓的长时关系检测旋律音高轮廓中的倍频错误。在数据集ORCHSET和MedleyDB上分别进行仿真实验,结果表明所提出的算法比改进前分别提高了3.32%和3.77%的总精度。2.为了提高音高估计精度,从高次谐波的稳定性以及音色特征的角度出发,提出基于高次谐波的稳定性和音色特征的旋律提取算法。针对音乐中乐器伴奏或和声的干扰而导致主音基频的失真或丢失问题,利用音高显著性的连续性和高次谐波的稳定性,提出基于音高静态似然性函数和音高显著性动态似然函数创建音高轮廓的方法;在提取旋律音高轮廓时,为了利用不同声源音色的不一致性,提出计算音高轮廓的梅尔频率倒谱系数作为音色特征以及从音高轮廓的各次谐波幅度中计算音色特征。对改进算法进行仿真实验,结果表明算法提高了音高估计精度和总精度。3.针对音乐情感随时间点的变化不是均匀分布的,并且为了抽象相邻情感变化点内的特征,提出基于旋律提取和卷积神经网络的动态音乐情感识别算法。算法首先采用音乐旋律的提取方法将得到的旋律线用于分割音乐信号,并对每一分割段提取帧级特征,然后通过基于卷积神经网络的结构模型抽象分割段的特征,最后将网络的输出与对应分割段的旋律轮廓特征相级联并输入回归器,从而得到基于情感模型的情感愉悦度/激活度值。在数据集DEAM15上进行仿真实验,结果表明本文提出的方法相比于其他识别算法可有效提高音乐情感的识别准确率。