论文部分内容阅读
乐音信号的多基频估计(Multipe Pitch Estimation, MPE)是音频信息检索(Music Information Retrieval, MIR)领域中的重点和难点。多基频估计的主要任务是估计出精确的基频频率值和个数。本文的研究在一定程度上平衡了计算复杂度低与准确率高之间的矛盾关系。本文的主要研究内容和创新点如下:(1)本文对经典的乐音信号多基频估计算法进行全面总结,并发现迭代谱减算法和联合估计算法性能比较突出。本文还系统地分析了多基频估计中三个关键问题的物理原因和解决方法。三个关键问题包括谐波丢失、谐波重叠以及不谐和性。另外,本文利用两类全面的评价准则来评价算法的性能。(2)本文采用谐波乘积谱来求解乐音信号多基频估计的候选基频集,并针对谐波重叠和八度错误的问题,提出谐波重置算法和八度校正算法。谐波重置算法能够分离多个音符的重叠谐波。八度校正算法能够纠正向量[1/4,1/3,1/2,2,3,4]所对应的次频和倍频错误。结合基频候选、谐波重置和八度校正模块以及预处理和后处理模块,本文提出基于谐波重置和八度校正的单帧信号的多基频估计方法。利用谐波乘积谱求解候选基频集,极大程度地降低计算了复杂度,谐波重置和八度校正显著提高了准确率。从而实现了计算复杂度低和准确率高的平衡。(3)本文提出了利用原位和弦与转位和弦中音符间音程关系的和弦识别器来优化候选基频集。基于和弦识别器和隐马尔可夫模型(Hidden Markov Model, HMM),提出了针对多帧信号的多基频估计方法。针对27.5-4186.0Hz范围内的88个标准音符,对每个音符都建模成两状态的隐马尔可夫模型。虽然引入HMM和维特比算法导致计算复杂度略有提高,但该模型与和弦识别器的配合使用,合理地强调了音符的时间连续性,且该算法的准确率比单帧信号方法有所提高。实验结果表明,本文提出的基于单帧信号的多基频估计方法在音符随机组合及乐曲片段中均以较低复杂度获得较高的准确率。基于多帧信号的多基频估计方法在两类试验材料中也都获得了较高的准确率。使用两类评价准则的测试,表明本文提出的两种多基频估计方法均优于经典的迭代谱减算法和联合估计算法。