论文部分内容阅读
哼唱检索是从音乐本质特征出发的一种基于内容的音乐检索方式。用户可以不用记住音乐名、音乐的演唱者、作曲家以及词曲家等一系列繁杂的信息,只需要能够哼唱出某个音乐片段的旋律即可。本文提出了一种新的哼唱检索方法,即基于音乐分类的哼唱检索。该方法的主要思想是:系统预先将音乐库中的音乐分成固定的几类,并对每类音乐集训练和建立其各自的隐马尔可夫模型。接着,在检索时,根据哼唱信号的物理特征,基于已经训练好的HMM,对其进行分类。最后,提取已经分类好的哼唱信号的旋律特征,与其对应类别的音乐特征库中的旋律特征序列进行旋律匹配。将相似度比较高的几个作为结果返回。基于本文提出的音乐分类哼唱检索研究的需要,本文主要做了以下四个工作:1)对哼唱信号的预处理工作进行了研究。确定了要对哼唱信号进行预滤波、采样量化、预加重以及加窗分帧四个工作。2)对音乐信号特征提取与选择进行了研究。研究了音乐的物理特征和感知特征,以及它们的提取方法,以及确定了音乐信号的分类特征和旋律特征。本文将信号的短时平均能量、短时过零率、Mel倒谱系数等物理特征作为分类特征,信号的音高和音值两个感知特征作为旋律特征。3)对基于隐马尔可夫模型的音乐分类进行了研究。使用了隐马尔可夫模型作为音乐分类的模型,对哼唱信号进行了分类。4)对基于隐马尔可夫模型和动态时间规整的旋律匹配算法进行了研究。分析了两种算法的基本原理,确定了系统所使用的旋律匹配算法。为了证明本文提出方法的有效性,主要进行了两个对比实验,其一就是基于HMM的哼唱检索实验与基于音乐分类和HMM的哼唱检索实验的对比;另一个就是基于动态时间规整(DTW)算法的哼唱检索实验与基于音乐分类和DTW的哼唱检索实验的对比。通过对比实验结果的分析,可以得知本文提出的基于音乐分类的哼唱检索方法在一定程度上能缩短了平均检索时间,提高检索速度。