论文部分内容阅读
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的领域,传统的搜索如Google,百度都已经有很成熟的技术,但是对于基于内容的多媒体检索,还是一个新生的待发展的领域,其中一个很重要的方面就是基于内容的音乐检索(Content-Based Music Retrieval,CMR)。至目前为止,传统的搜索引擎如Google或百度都有推出自己的音乐检索系统,但是都是基于音乐的描述性文字进行的检索,远远不能满足人们检索音乐的需求。
基于内容的音乐检索研究存在若干不同方向,其中哼唱检索(Query byHumming,QBH)以人们哼唱的一段旋律或者歌曲作为输入,具有良好的人机接口和实用性,对于在互联网上实现基于内容的音乐检索有着重要的意义,因此引起了众多研究者的重视。到目前为止,哼唱检索已经有众多研究成果,但是由于音乐旋律属于高维数据,且用户的哼唱必然带有错误,所以,目前现有的检索算法普遍存在算法时间复杂性高、准确性低的问题,并进而制约了音乐旋律库容量不能太大,使得基于内容的音乐检索缺乏实用性。因此,在QBH系统中,如何快速准确地找到用户检索的歌曲,如何有效地扩大音乐旋律库容量,都是极具挑战性的课题。而这两个问题的解决,必将为大规模的QBH系统走向实用化提供关键性技术。
本文针对基于内容的较大规模音乐检索的问题,研究对比已有的QBH的研究成果,基于对音乐旋律的本质特征及在对用户在哼唱错误模型的分析,针对现有算法相似度模型中存在的问题,提出了改进的相似度计算方法,并创新性地提出了一种新的基于N-Gram与DTW的混合匹配算法。算法利用改进的N-Gram算法做快速匹配,过滤掉大部分不相关的旋律,然后在N-Gram运算过程中,候选旋律携带的信息将哼唱旋律与候选旋律对齐,再使用改进的DTW算法计算候选旋律目标片段与哼唱旋律的相似度。N-Gram算法作为一个过滤器,可以很快地过滤掉大量的非匹配选项;同时N-Gram算法还作为一个匹配器,匹配对齐候选旋律和哼唱旋律;最后的精确匹配则为最后的排序提供依据。因为算法的主体是N-Gram算法,并且DTW算法的输入规模由原来的m*n降低到n*n(一般地m>10*n),所以匹配的速度很快,同时又保证检索结果的完备性和准确性。从而有效地解决了检索的准确性和响应时间两个问题。