论文部分内容阅读
乐器识别是音频信息检索领域中的重要研究方向之一,其主要目标是从乐音信号中分辨出乐器的所属类别和具体名称。音色的差异是区分不同乐器声音的根本依据,但现有的乐器识别算法通常使用大量的特征用于分类,往往忽略了探索乐器音色的本质。本文以音色信息的提取为出发点,对西洋乐器的识别问题展开了研究。合理的数学模型是音色特征提取的重要基础,本文总结了三种不同类别的乐音模型,并对常见的音色特征进行了简要介绍。激励源-滤波器模型以乐器的发声机制为基础,将乐音信号建模为激励源与共振体的卷积。乐器的音色主要由共振体的修饰作用决定,并可以通过倒谱分析进行有效提取。在倒频域特征中,梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient, MFCC)将乐器的发声机制与人耳的听觉特性相结合,更全面地诠释了音色的感知。本文将传统的激励源-滤波器模型加以改进,利用正弦成分和噪声成分的叠加对激励源信号建模,构建出对乐音信号描述更为详细的综合模型。受MFCC的启发,本文在综合模型的基础上提出了基于非音高成分的梅尔频率倒谱系数(Nontonal Mel Frequency Cepstral Coefficient, NMFCC)。非音高成分对应于噪声激励,此时提取出的共振体信息去除了激励源的影响,对音色的描述更加准确。此外,本文对经验模态分解(Empirical Mode Decomposition, EMD)得到的本征模态函数(Intrinsic Mode Function, IMF)进行筛选求和,提出了基于低阶本征模态和的梅尔频率倒谱系数(Mel Frequency Cepstral Coefficient of Low Order Modes Summation, LOMS-MFCC),有效突出了乐音信号高频段的共振峰信息。本文通过大量的乐器分类实验,对NMFCC和LOMS-MFCC的音色描述能力进行了验证。与MFCC特征相比,本文提出的两种音色特征在乐器分类实验中性能均有明显改善。鉴于NMFCC令人满意的区分能力,论文最后将NMFCC特征和相关时域特征进行组合,使识别系统整体的识别正确率得到进一步提高。