论文部分内容阅读
音乐的创作、表演是人类最复杂的文化产物。近年来,随着自动音乐分析、重组和海量音乐数据检索需求的日益增长,导致从多声部混合音乐信号中分离出特定乐器信号变得尤为重要,而单个麦克风的音乐录制是极其普遍的,所以本文研究的重点是从单通道线性瞬时混合音乐中分离出乐器信号。非负矩阵分解(Nonnegative Matrix Factorization, NMF)算法能够有效地将音乐频谱分解为若干基本音符成分,但多个乐器同时演奏时,不同乐器源的时频混叠十分严重,同时未存在有效的聚类算法将分解后的音乐成分归类为所属乐器源,为此本文从以下两个方面进行了研究:针对NMF算法分解音乐成分不易聚类的问题,本文给出了MIDI.乐谱监督下的板仓-斋藤非负矩阵分解(Itakura-Satio Nonnegative Matrix Factorization, IS-NMF)的音乐源分离方法。该方法首先将不同乐器的MIDI乐谱合成为音乐信号,并采用IS-NMF算法从不同乐器的合成音乐中学习音乐成分,然后将所得的音乐成分分别初始化IS-NMF分解混合音乐频谱的基矩阵与增益矩阵,最终维纳滤波分解成分获得估计的源乐器信号。仿真实验表明该方法相比于其它乐谱监督下的分离算法在分离评价指标上有明显改进,但增加了时间复杂度。为了减少乐器间的时频重叠,本文采用了由传统NMF算法拓展的二维稀疏非负矩阵分解模型(Two-Dimension Sparse Non-negative Matrix Factorization, SNMF2D),针对SNMF2D直接分解混合音乐频谱所导致的乐器成分模糊问题,本文引入经验模态分解(Empirical Mode Decomposition, EMD)算法对时域混合音乐信号进行预处理,将混合音乐分解为若干本征模态函数(Intrinsic Mode Function, IMF),并根据每阶IMF分量的混合度,最优地调整稀疏权重因子,同时利用SNMF2D算法对每阶IMF成分的频谱进行分解,接着每阶IMF分量的时域子源经掩蔽算法及短时傅里叶逆变换估计得到,最终将时域子源信号聚类为相应的乐器源。计算机仿真实验表明该方法相比于直接利用SNMF2D算法略有提高。