论文部分内容阅读
在数据爆炸增长的大数据时代,如何高效地对海量音乐进行分类、检索和管理已经成为了难题,传统的人工标注的方式已经远远不能满足需要,所以基于内容的音乐要素分析成为研究热点。基于内容的音乐分析是计算机音乐智能处理领域的重要分支,其中音符的分割和识别是关键技术之一。目前,已经有可靠的算法能将每一段短时周期信号转换为音高,但还没有好的算法能将音高序列转换得到的离散的音符序列进行准确切分,自动音符切分识别还是一个技术难题。本文在音符切分相关研究成果的基础上,结合音乐基本理论、模式识别与机器学习技术,提出一种基于行列式点过程(determinant point process,DPP)的音符切分算法。本文从应用背景、基本概念、数学逻辑和几何意义四个方面对行列式点过程进行了全面的剖析,阐述了行列式点过程建模的可行性,为后续的工作提供了理论保障。行列式点过程模型是一种子集选择模型,本文首先对音乐进行分帧,为每一帧建立一个12维的特征向量,并用行列式点过程模型进行建模,根据有监督学习的原理,对模型参数进行训练,最后利用抽样算法选取一个满足DPP分布的子集,从而实现音符的分割。具体工作内容如下:首先,对音乐数据进行预处理,将音乐统一为11025Hz采样率3秒钟的音乐片段,并剔除了连续重复的片段。通过分帧的方式,将连续的音乐信号抽象为离散的点过程,在分析并推导了基于帧的音级轮廓(PCP)特征提取的原理后,为每一帧建立一个12维的PCP特征向量作为该点的差异性向量。其次,为每一个音乐片段手动标注一个音符帧号对应表,并为手动选出一个帧子集用作训练,该子集由每一个音符的一帧组成。再根据极大似然估计(MLE)原理建立目标函数,在阐述了目标函数可近似为凸函数后,将其转换成凸优化问题,利用梯度下降法进行求解。最后,利用DPP抽样算法,为测试数据抽取帧子集,并与音符帧号对照表进行对比,统计错误率。本文通过交叉验证的方式对200段音乐数据进行实验,实验最终的音符切分正确率为67.92%,不同于传统的信号处理方式,为音符切分提供了一种新方法。