基于哼唱的音乐检索技术研究和系统实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:a345333488
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网基础设施和各种互联网应用的快速发展,多媒体内容如音乐、影视、图片等已经占据了互联网绝大部分的流量。在文字搜索的领域,传统的搜索如Google,百度都已经有很成熟的技术,但是对于基于内容的多媒体检索,还是一个新生的待发展的领域,其中一个很重要的方面就是基于内容的音乐检索(Content-Based Music Retrieval,CMR)。至目前为止,传统的搜索引擎如Google或百度都有推出自己的音乐检索系统,但是都是基于音乐的描述性文字进行的检索,远远不能满足人们检索音乐的需求。   基于内容的音乐检索研究存在若干不同方向,其中哼唱检索(Query byHumming,QBH)以人们哼唱的一段旋律或者歌曲作为输入,具有良好的人机接口和实用性,对于在互联网上实现基于内容的音乐检索有着重要的意义,因此引起了众多研究者的重视。到目前为止,哼唱检索已经有众多研究成果,但是由于音乐旋律属于高维数据,且用户的哼唱必然带有错误,所以,目前现有的检索算法普遍存在算法时间复杂性高、准确性低的问题,并进而制约了音乐旋律库容量不能太大,使得基于内容的音乐检索缺乏实用性。因此,在QBH系统中,如何快速准确地找到用户检索的歌曲,如何有效地扩大音乐旋律库容量,都是极具挑战性的课题。而这两个问题的解决,必将为大规模的QBH系统走向实用化提供关键性技术。   本文针对基于内容的较大规模音乐检索的问题,研究对比已有的QBH的研究成果,基于对音乐旋律的本质特征及在对用户在哼唱错误模型的分析,针对现有算法相似度模型中存在的问题,提出了改进的相似度计算方法,并创新性地提出了一种新的基于N-Gram与DTW的混合匹配算法。算法利用改进的N-Gram算法做快速匹配,过滤掉大部分不相关的旋律,然后在N-Gram运算过程中,候选旋律携带的信息将哼唱旋律与候选旋律对齐,再使用改进的DTW算法计算候选旋律目标片段与哼唱旋律的相似度。N-Gram算法作为一个过滤器,可以很快地过滤掉大量的非匹配选项;同时N-Gram算法还作为一个匹配器,匹配对齐候选旋律和哼唱旋律;最后的精确匹配则为最后的排序提供依据。因为算法的主体是N-Gram算法,并且DTW算法的输入规模由原来的m*n降低到n*n(一般地m>10*n),所以匹配的速度很快,同时又保证检索结果的完备性和准确性。从而有效地解决了检索的准确性和响应时间两个问题。  
其他文献
虚拟化技术是使若干的操作系统相互隔离的运行在一台物理机上的技术,起源于上个世纪六十年代,近年来在各大公司和科研机构的带领下虚拟化蓬勃发展,相关领域的研究工作和研究成果
双目视觉是计算机视觉领域的一个重要研究方向,它通过模拟生物视觉,使计算机具有利用二维图像感知三维环境信息的能力。立体匹配作为双目视觉中最关键和最困难的部分,近年来
随着数字图书馆的发展和其在人们学习、工作和生活中的广泛使用,它所依赖的文献数据急剧增长,对数据处理的要求也日益复杂。文献数据海量增长和处理操作多样化使得数据处理花
火星作为太阳系内最类似于地球、最有可能存在生命的行星,吸引着诸多国家和机构的注意力。目前,我国的火星探测工程已经列上日程。地火转移轨道的设计是火星探测的先导,降低探测
学位
软件国际化是指,在设计软件时将软件与特定语言与地区脱离的过程。它对于开发者来说是一个有挑战性的任务,特别是在软件当初设计时没有考虑这个问题的时候。在软件国际化过程
大学堂是一个分布式的教学视频共享系统,具有高可靠性,可扩展性。本文基于大学堂的实际应用需求-在服务器间传输大的视频文件,提出了一种基于多路径与并行TCP的数据传输技术,
数据挖掘技术是近年来数据库和人工智能等领域研究的热点课题,它引起了科学界和产业界的广泛关注。关联规则挖掘作为数据挖掘领域的一个重要研究分支,它的任务是发现所有满足支
学位
近年来,随着Web规模的不断扩大,Web中蕴含了越来越丰富的信息。随着搜索引擎的出现以及商业搜索引擎功能的日益增强,人们越来越多的利用搜索引擎来寻找和挖掘Web中蕴含的知识
目前,随着搜索引擎使用人群不断增长,其商业价值也日益突显出来,同时作为搜索引擎本身,也需要有一定的盈利模式来支撑它的发展。此时,竞价排名应运而生,现已成为搜索引擎最主要的收
随着硬件技术和移动网络技术的快速发展,以智能手机为代表的嵌入式系统的硬件性能越来越强,软件应用越来越丰富,使得嵌入式设备在性能和功能上越来越接近微型个人电脑。性能