基于哼唱的音乐检索关键技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhuifeng188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
众所周知,随着网络技术的迅猛发展,网络上多媒体资源已越来越多。在音乐检索方面,单纯的文字输入检索已经不能满足用户的需求,尤其是网络上的音乐多媒体爆炸式增长的情况下。如何从这些海量数据中快速准确地找到自己喜欢的歌曲已经成为一个研究热点。哼唱检索,依靠其哼唱的方便表达性,在该领域成为了主要的研究方向。哼唱检索的主要研究技术有:哼唱输入文件和数据库文件特征序列的提取,音乐特征的表达和旋律匹配方法的研究。目前在国内外,该方向在理论上已经取得了很大进展,并且开发了很多应用系统,但在扩展性,响应速度,精确性上都有待于提高。本文的研究工作以此展开。  在本文中,我们通过对哼唱检索关键技术的研究,采取了三种可以提高查询速度和准确率的方法。  1)在特征提取部分,分析了现有的两种基音周期提取方法ACF和AMDF,在考虑系统的实时性和准确性的基础上,提出了基于ACF和AMDF相结合的基音周期方法。  2)在旋律匹配部分,为了尽可能的提高检索性能,本文采用了层次式的匹配方法并做出分析与改进,首先采用一种运算速度快但检索精度一般的EMD方法作为过滤器从数据库里过滤掉大部分不可能的候选匹配音乐文件,将剩余的小部分文件组成细匹配的候选集;然后采用一种速度相对较慢但精度高的方法CDTW,从候选集里选出匹配度最高的一些音乐文件,并对其进行排序显示。  3)在排序部分,从机器学习的投票策略上受到的启发,在匹配时对每一种过滤器根据一定的相似度计算方法都计算出一个相似度得分,然后对这两个得分加权相加,以此来判定最终文件的排序顺序,这种融合的方法可以保证获得更精确合理的排序顺序。  本文所设计的系统证明了上述改进方法的可行性,在MIREX测试集上获得了较好的准确率和较快的响应时间。
其他文献
在互联网诸多种类的文本中,有一种以商业财经分析和股评信息为主题的电子文档,这些文档中涉及很多商业实体和商业关系。商业社会网络就是以该类文档为基础,利用文本处理技术
社会网络分析起源于20世纪30年代,是在心理学、社会学和人类学的基础上发展而来的,最初被用来研究真实社会中人与人之间的关系。随着时间的推移,许多学者致力于社会网络分析
随着无线通信技术和信息安全技术的发展,免钥门禁技术被越来越多的应用在汽车上。但现在市场上的各种汽车免钥门禁技术都存在着一定的缺陷,本文就是研究如何将安全高效的身份
随着3G网络与无线局域网的普及,无线网络通信技术已经在我们的日常生活中无处不在了。无线Mesh网(Wireless Mesh Network)简称WMN作为一种新型的无线网络,由于其自组织,自适
巷道是地下采矿时,为采矿提升、运输、通风、排水、动力供应等而掘进的通道,是矿山生产和施工的主要研究对象。巷道设计的优劣与矿山生产、运输、通风、安全等方面有直接影响
格基密码学作为后量子密码的典型代表,是一类备受关注的抗量子计算攻击的公钥密码体制,对其研究越来越具有积极的理论意义和紧迫的现实意义。格密码的发展大体分为两条主线:一
个性化推荐技术是根据用户的个人喜好以及消费记录,推荐其喜爱的商品或者信息的一种技术,近年来逐渐成为研究的热点。它普遍应用于影视、电子商务、社交平台、网络电台、音乐
随着地理信息系统的应用越来越普遍,对空间数据库的设计和响应速率的要求也越来也高。地理信息系统的开发少不了空间数据库的支持,目前空间数据库的设计与建设主要是以Arc SD
生物特征识别技术近几年取得了飞速的发展,利用人体的生物特征来鉴别个人身份成为安全验证的重要方式。对人脸识别方法和技术的研究已经是国内外模式识别领域的研究热点。目
随着数字图像处理技术的发展,医学图像处理和分析技术在医学诊断领域发挥着越来越重要的作用,比如在对大脑图像进行分割时,可以利用机器学习的方法判断老年痴呆病发的可能性;