论文部分内容阅读
自动音乐记谱是指利用计算机技术将一段音乐信号转化为乐谱等符号表达形式的过程,现已在音乐辅助教学、即兴音乐创作等方面广泛应用。由于多音音乐中存在严重的频谱重叠现象,实现其自动记谱目前仍面临巨大挑战。钢琴作为典型的多音乐器,音域宽广且和弦丰富,其自动记谱研究对于多音音乐具有重要意义。本文以音符级别的钢琴自动记谱为研究内容,主要工作及创新点包括: 1.提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)的音符识别方法。目前深度学习技术仅用于帧级别的记谱方法中,但帧级别的记谱结果并不能严格对应音乐中的基本音符事件。本文将深度学习技术推广至音符级别的分步估计方法中,使用两个CNN实现音符的识别。其中,一个CNN用于检测音符的起始点,另一个CNN用于在每一个起始点处估计音符的音高。实验结果表明,CNN相比其他网络结构更适合音符起始点检测和多音高估计任务,且两个CNN的分步使用可以比单一CNN产生更好的记谱性能。 2.提出了一种针对特定钢琴个体的两阶段记谱方法。利用钢琴个体信息更有针对性地对音乐进行分析,是提升记谱性能的有效方法之一。在本文提出的两阶段记谱方法中,第一阶段借助前文提出的音符识别方法实现钢琴个体无关的初步识别,第二阶段利用特定钢琴信息对识别得到的候选音符进行确认。本方法的音符确认阶段借助非负矩阵分解(Non-negative Matrix Factorization,NMF)实现,仅使用候选音高的起始模板在候选起始点处进行分解。相比于传统的NMF,本文提出的音符确认阶段侧重于对音符起始阶段建模,且有效降低了算法的时间复杂度和空间复杂度。实验表明,音符确认阶段的添加使得系统性能进一步提升,尤其是在准确性方面。整体来看,本文提出的方法已达到目前特定钢琴自动记谱最优的性能。 3.提出了基于音符级别音乐模型的钢琴自动记谱方法。不同于现有的帧级别音乐模型仅能在帧与帧结果之间起到平滑作用,本文提出的音符级别音乐模型可以描述音符之间的结构关系。受隐马尔科夫模型思想启发,本文构建了一个集成模型用于整合音乐模型和声学模型(音符识别模块)的输出。针对阈值判断后得到的音符识别结果,本文还提出了一种局部束搜索算法,使用音乐模型和声学模型的输出对空白起始点处的音符进行预测。实验结果表明本文提出的局部束搜索算法可以有效提升音符级别的记谱性能。对比不同音乐模型还可发现,受限玻尔兹曼机和递归结构的结合比单个递归神经网络的性能更优。 4.研究了基于复数CNN的钢琴自动记谱方法。使用复数值对音乐信号进行表征和计算在计算角度、生物学角度和信号处理角度上都具有重要意义。本文使用复数CNN构建音符识别模块分别进行起始点检测和多音高估计,并将其应用于基于音符级别音乐模型的自动记谱系统。与实数CNN相比,复数CNN对应的记谱性能在各个指标上均有提升。