论文部分内容阅读
从音乐信号中提取主旋律是一种可以通过分析音频文件信息来帮助用户直接与音乐进行交互的技术,它与音频信号处理及音乐信息检索(MIR)有很大的联系。这种技术多被称为“主旋律提取”、“音频旋律提取”、“主旋律估计”、“主基频估计”等,其目的是从音乐信号中自动获得表示主旋律线基频的频率序列。本文的研究方法是基于音乐多基频提取的方法,即认为音乐是由人声和各种乐器音源的信号混合而成,为了得到人声音源的基频,需要在基频域提取候选人声基频,再通过人声乐器的短时区分性特征进行主基频判决得到候选人声基频序列,最后通过人声乐器的长时区分性特征进行人声帧判决得到一条主旋律基频序列。本文创新点主要分为以下三个部分:1、提出并研究了三类人声与乐器在谐波域上的区分性特征本文首先从人声乐器发音机理上分析人声乐器两者的区别,通过理论分析挖掘出可能的区分点,对纯人声、纯乐器以及多音源音乐信号在谐波域上进行了大量实验统计分析工作,分别提出了基于谐波结构能量、谐波结构频率误差以及谐波次数三类区分性特征,其中部分特征能够较好的描述多音源音乐中人声乐器的区别。2、提出并研究了基于谐波结构特征的主基频判决方法本文在已有多基频提取的基础,根据谐波结构的区分性特点以及结合逻辑回归分类器提出了多种新的主基频判决方法,并且对比分析这些方法的优劣情况,这些方法不仅提高人声基频的召回率,也使得整个主旋律提取系统的人声召回率和音高准确率得到提升。3、研究并实现了预处理阶段的人声帧判决模块本文利用多种音乐检索领域的统计特征和逻辑回归分类器,在预处理阶段引入人声帧判决,使得非人声帧对主旋律判决的影响尽可能的减小,从而降低主旋律提取的虚警率,从而达到提高系统主旋律正确率的效果。