论文部分内容阅读
在基于内容的检索领域中,音频检索是新发展起来的研究热点。音乐哼唱检索是基于内容的音频检索的一个分支,它提供了一种新颖、方便的音乐检索方法,当人们遗忘了歌曲的歌名等信息时,用户可以通过哼唱一段旋律的方式,在大型歌曲数据库中快速寻找到目标歌曲,这种检索方式给用户带来了简单、直观、方便的音乐检索体验。本文分析了当今基于哼唱的音乐检索系统中的一些技术,对旋律特征表示方法、旋律特征提取算法、旋律匹配算法进行了讨论和研究。现今的哼唱检索系统大都忽略了检索速度的问题,本文针对这个问题,将基于精确欧氏距离位置敏感哈希的相似性检索技术应用到哼唱检索中,构建一个快速的音乐哼唱检索系统。本文主要做了以下几个方面工作:1.对哼唱检索系统基础进行了分析。在了解哼唱检索系统结构的基础上,分别研究了旋律特征表示方法以及相关语音信号处理技术,研究了使用MIDI文件建立旋律模板库,研究了旋律特征的提取技术,包括基音周期预估、平滑处理和音符切分,其中,对比了几种基音周期预估算法,YIN的性能较好,然后对旋律匹配过程中音高偏移问题和音长伸缩问题进行分析讨论。2.对旋律匹配技术进行研究。本文对比了线性伸缩(LS),动态时间规整(DTW)和土堆移动距离(EMD)三种旋律匹配算法的性能,针对旋律匹配,对DTW算法进行了动态阈值偏移约束的改进,形成了检索速度较快的改进型DTW(IDTW)。综合EMD与IDTW各自的优点,本文提出了一种旋律匹配算法EMD-IDTW,该方法匹配准确率较高且检索速度较快。3.针对现今哼唱检索系统检索速度慢、需要穷举匹配的问题,本文研究了基于精确欧氏位置敏感哈希(E2LSH)的相似性快速检索技术,对E2LSH及其哈希函数进行了理论分析,将E2LSH检索技术应用到哼唱检索系统中,建立了基于pitch向量的E2LSH索引结构,利用该索引结构进行第一层检索,加快了系统检索速度。本文结合EMD-IDTW匹配算法,提出了Pitch-E2LSH+EMD-IDTW旋律匹配方法。最后本文构建了基于E2LSH的音乐哼唱检索系统,该系统在保证检索准确率的情况下,大大提高了检索速度。