论文部分内容阅读
音乐信息检索包括音乐内容分析、音乐风格分类、哼唱识别、音乐推荐等内容,近年来在网络音乐、移动终端、消费电子、游戏娱乐等领域得到了广泛应用。主旋律提取与多音高估计是音乐信息检索领域的重要课题,国内外对此进行了研究,取得了重要成果,但在性能上还无法满足实际需要,有许多问题有待深入研究解决。本文应用欧几里得算法、贝叶斯滤波、动态规划、时频分析等技术,对主旋律提取和多音高估计方法进行了深入研究,所做的主要创新工作如下:(1)低音伴奏、特殊歌唱技巧以及某些乐器的固有特性会导致基频丢失,此时难以用基频跟踪技术提取音乐主旋律。为此,本文将计算两个自然数最大公约数的欧几里得算法推广到浮点数域,提出了改进欧几里得算法。然后,将其用于旋律音高候选估计,提出了基于改进欧几里得算法的主旋律提取方法。该方法用短时傅里叶变换和瞬时频率进行音乐混合信号正弦估计,并基于谱峰频率对,用改进欧几里得算法计算每帧的多个候选音高估计,再根据音高轮廓时长和连续性特征得到旋律音高序列。该方法不依赖于基频分量就能进行音高估计。进一步,针对同一音符持续时间内音高估计值有时剧烈跳变的问题,提出了改进欧几里得算法和动态规划相结合的主旋律提取方法。该方法用改进欧几里得算法估计每帧多个候选音高,用动态规划算法迭代求解描述主旋律音高的目标函数,以获得平滑的旋律音高轮廓,大幅度减少旋律轮廓的短时剧烈跳变。实验结果表明,该方法在基频丢失时能有效地估计主旋律音高,且避免了旋律音高序列的短时剧烈跳变。(2)鉴于随时间演进的主旋律音高具有时序相关性,本文用贝叶斯理论对音乐主旋律提取建模,并用粒子滤波获得其有效近似解,提出了基于粒子滤波和动态规划的主旋律提取方法。该方法在粒子滤波阶段,用Logistic分布描述音高转移概率,基于音高显著性、谱平滑性和音色相似性构建似然函数,用粒子滤波递推估计旋律音高序列的后验概率密度,以获得旋律轮廓粗估计。在动态规划阶段,先对旋律轮廓粗估计结果进行平滑,得到帧级旋律音高动态范围,然后用动态规划算法迭代求解描述主旋律音高的目标函数,从而得到最终的旋律音高序列。该方法不需要先验信息,两阶段策略既缩小了旋律音高搜索范围,又大幅度降低了动态规划计算量。实验结果表明,该方法具有较高的旋律提取准确率。(3)音乐信号中部分乐音分量存在谐波重叠,导致多音高估计时常产生漏检和误检问题。为此,本文定义了伪二维谱,推导出相关性质,在此基础上,提出一种基于伪二维谱的多音高估计方法。该方法用伪二维变换,将一维音乐信号映射到二维频率平面上;然后,计算伪二维幅度谱与二维谐波模板的互相关函数,实现二维模式匹配,得到音高初估计;最后,借助邻近帧估计结果去除异常值,并用音高直方图对剩余音高进行筛选和补充,从而得到精确的帧级多音高估计结果。该方法能有效地区分和声导致的重叠谐波分量,且计算量较小。实验结果表明,与现有方法相比,该方法的音高估计精确率与召回率较高。