基于重复模式的连续哼唱输入音乐检索研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:kongshuai19900505
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术和多媒体技术的迅速发展,大量的多媒体信息都可以从网上获得。如何从众多的多媒体信息中检索出我们需要的信息,是当前的一个热点问题。本文主要进行了多媒体信息检索中的哼唱音乐检索研究,使用户只需对着麦克风哼唱一首乐曲的旋律片段,就可以得到所要检索的乐曲。目前对哼唱音乐检索的研究大多把重点放在特定哼唱输入方式和字符串之间的模糊匹配上,对于连续哼唱输入方式的研究较少,即使采用了连续哼唱输入方式,也是直接提取哼唱输入的基频轨迹进行匹配,缺少对基频轨迹预处理的研究。此外,由于基频轨迹的数据量较大,对旋律匹配模块的计算能力要求很高,因此,如何提高系统的检索速度也是值得探讨的问题。本文针对以上哼唱音乐检索研究中的不足,进行了如下工作:在建立旋律库模块,通过提取乐曲的重复模式来减少旋律匹配的计算量,提出了重复模式树(Repeating-Pattern-Tree,RP-Tree)算法的改进算法,大幅度提高了重复模式提取算法的性能;在连续哼唱输入的旋律提取模块,采用了先提取基频轨迹,再对基频轨迹进行去除错误点以及降维操作的方法,生成了音高时间序列;在旋律匹配模块,分析了哼唱输入可能具有的四种常见错误以及对检索算法的要求,设计了基于N-Gram索引的动态时间弯折(Dynamic Time Warping,DTW)检索算法;最终实现了一个哼唱检索的原型系统,通过实验,达到了94%的前十名命中率。实验表明,乐曲的非平凡重复模式不但减少了检索的数据量和存储量,还反映了乐曲的音乐特性。因此,在基于内容的音乐检索研究中,对音乐结构和特性的研究是一项非常重要且有意义的工作。
其他文献
用户界面(UI)是用户直接与软件进行交互的部分,其舒适度和美观性备受用户关注和重视。传统开发和构造人机界面的方法存在一定局限性,它忽略了用户界面设计的交互性。现有用户界
随着VoIP技术的不断发展和成熟,各种形态的VoIP应用层出不穷,并以其低廉的价格吸引了众多的用户,对传统的PSTN语音业务产生了巨大的冲击。由于其业务实现的简单性和灵活性,很
Internet作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析及建模研究是目前研究的热点问题,受到学术界广泛关注。近年来人们在该领域的研究取得了长足的进展,尤其是在In
多年来随着分类理论的深入研究,各种分类应用诸如光学字符识别、语音识别、文本及图像分类等也都在逐步开展,并取得了很多很好的成果。分类理论在这些问题上的成功应用,鼓舞人们
自1988年首个利用缓冲区溢出漏洞进行传播的病毒Morris爆发以来,缓冲区溢出攻击就一直是计算机安全中最严重的攻击行为之一。近些年,它又成为了高级持续性威胁APT (Advanced
随着汽车电子技术的飞速发展和智能化终端设备的普及,新一代车载信息娱乐系统的构建成为人们关注的焦点。而HTML5技术能帮助车载信息娱乐系统供应商,紧跟消费产品、应用程序和
结构健康监测技术将驱动元件或者传感元件集成在结构中,同时与材料结构的建模方法和信号信息的处理方法相结合,通过对特征参数的提取,在线实时地识别结构的健康状况,然后通过
本文论述了基于SNMP的IT设备管理系统的设计与实现。首先,提出了系统的体系结构和功能模型,包括5大功能模块:拓扑管理、告警管理、性能管理、安全管理和日志管理。其次,阐述
随着电信技术与计算机技术的发展,电信网络与计算机互联网络不断融合,网络提供的业务种类大量增加。同时越来越大的网络规模加上越来越复杂的网络结构,使信息技术的应用模式也发
随着计算机技术的发展,计算应用的模型也发生了重大改变。作为一种新的载体——嵌入式系统应运而生。嵌入式系统研究的一个热点和难点问题是嵌入式操作系统。为了满足专业领