论文部分内容阅读
基于内容的音乐检索是当前音频检索的热门领域,而且随着在线音乐量的不断增加,其应用价值也越来越大。另一方面,用户的检索需求也在变化,他们往往不满足于仅仅获得与查询完全相同的歌曲,还希望获得目标音乐的多个版本,比如不同歌手、不同场合演唱的版本。随着网络自媒体的发展和业余翻唱的普及,这种需求也越来越明显。基于内容的音乐检索分别从查询音乐和样例音乐提取特征,然后进行特征匹配来检索与查询相同的样例音乐。在样例检索中使用的特征通常称为音频指纹,其追求格式紧凑简洁,倾向于匹配内容相同的音乐片段,而音乐版本特征表达复杂,倾向于匹配版本特征相同的片段,而内容并不一定相同。因此本文对两者分开处理,音乐版本识别可以在规范样例库中离线进行,而基于音频指纹的检索实时进行,对于指纹检索命中样例,可以根据版本识别结果马上给出相关样例(即该歌曲的其它版本)。由于人类听觉性能良好,本文希望从基于听觉机理的特征出发来构建音频指纹。在分析人耳的生理特征后,本文使用余弦基和发放函数来仿真耳蜗对声音的处理流程,然后使用稀疏分解得到特征系数。为了克服分解耗时较高的问题,提出了基于匹配追踪算法的快速特征提取方法。由于基于听觉机理的稀疏特征形式复杂,并不适于直接用来检索,本文将其压缩转换为音频指纹。应用的主要方法包括使用最小哈希对高维二值序列特征进行降维,以及使用局部敏感哈希进行快速检索,然后给出相应的候选确认和样例检出方法。实验表明该指纹特征具有较好的检索效率和表达性,对于轻微噪声和时域全局性变化的鲁棒性较好,但对时域局部变化鲁棒性较差。在音乐版本识别方面,本文首先分析了音乐版本领域内的基础定义、主要问题和通用处理方法。通过对识别流程梳理和各种方法比较分析,构建出完整的音乐版本识别方法。本文对常用的谐波音级轮廓特征进行了改进,加入节拍和调移信息并作为版本识别的核心特征,而且在特征计算前应用了必要的预处理步骤,包括峰值估计、节拍估计和参照频率估计等。实验结果显示本文构建的版本识别方法是有效的。