论文部分内容阅读
随着互联网的迅猛发展、上网设备的快速普及以及大容量存储器的出现,人们获得信息的速度越来越快,数量也越来越多。尤其是近两年移动互联网络技术迅猛发展以及移动终端的迅速普及,人们可以随时随地的上传自己的信息,同时也可以下载自己需要的服务或信息,音频内容在人们的生活中占了很大一部分。如何对这些海量的音乐数据进行查找和管理成为一个新的课题。然而对于海量音乐数据的管理是一项非常繁琐并且易错的工作。近年来,基于内容的音乐检索CBMR(Content-based Music Retrieval)发展成为网络环境下处理多媒体海量数据的一项重要课题,与图像检索、视频检索并列成为基于内容的多媒体信息检索研究的热点。音频指纹是指可以代表一段音频重要声学特征的基于内容的紧致数字签名,其主要目的是建立一种有效机制来比较两个音频数据的感知听觉质量,可以用于数字音频内容的版权保护、音频内容识别和内容完整性校验等各个领域,具有非常重要的研究意义。本文对基于内容的音乐检索的产生背景和基本概念进行了介绍,描述了检索系统的系统框架以及相关技术。重点研究了乐纹数据库的索引压缩算法,针对检索系统的两个核心,特征提取和检索算法进行了研究,最终基于此研究实现了检索系统,并设计了对比试验以验证系统的有效性。本文的主要研究工作包括以下几个方面:(1)针对当前音频数据量庞大,产生的乐纹索引耗费大量存储空间的问题,提出使用压缩后缀数组来压缩乐纹索引的方法,解决全文索引时索引空间过大的问题。主要利用有序乐纹数据中较高位特征出现重复概率大的特点,使用游程编码对乐纹序列进行无损压缩。解决数据库大小与检索匹配度不能兼得的矛盾。(2)针对当前互联网存在大量有损格式音乐文件(如MP3等),对检索系统的核心算法之一,特征提取算法进行了研究,提出使用Mel频率倒谱系数(MFCC)来计算有损压缩格式音乐的特征值,提高检索的准确度。(3)对检索系统的另一核心,乐纹匹配检索算法进行了研究,提出两种相似性距离计算方法,KL差异(Kullback-Leibler Divergence)方法和EMD距离(the Earth Mover’s Distance)方法,并通过设计对比试验最终证明在同等条件下,EMD的检索精度要高于KL距离的检索精度。(4)基于以上算法和研究设计并实现了音频检索系统原型,并通过与传统的基于内容的乐纹检索系统进行实际对比,验证了新系统的有效性。