基于音频指纹和版本识别的音乐检索技术研究

被引量 : 0次 | 上传用户:wudongzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于内容的音乐检索是当前音频检索的热门领域,而且随着在线音乐量的不断增加,其应用价值也越来越大。另一方面,用户的检索需求也在变化,他们往往不满足于仅仅获得与查询完全相同的歌曲,还希望获得目标音乐的多个版本,比如不同歌手、不同场合演唱的版本。随着网络自媒体的发展和业余翻唱的普及,这种需求也越来越明显。基于内容的音乐检索分别从查询音乐和样例音乐提取特征,然后进行特征匹配来检索与查询相同的样例音乐。在样例检索中使用的特征通常称为音频指纹,其追求格式紧凑简洁,倾向于匹配内容相同的音乐片段,而音乐版本特征表达复杂,倾向于匹配版本特征相同的片段,而内容并不一定相同。因此本文对两者分开处理,音乐版本识别可以在规范样例库中离线进行,而基于音频指纹的检索实时进行,对于指纹检索命中样例,可以根据版本识别结果马上给出相关样例(即该歌曲的其它版本)。由于人类听觉性能良好,本文希望从基于听觉机理的特征出发来构建音频指纹。在分析人耳的生理特征后,本文使用余弦基和发放函数来仿真耳蜗对声音的处理流程,然后使用稀疏分解得到特征系数。为了克服分解耗时较高的问题,提出了基于匹配追踪算法的快速特征提取方法。由于基于听觉机理的稀疏特征形式复杂,并不适于直接用来检索,本文将其压缩转换为音频指纹。应用的主要方法包括使用最小哈希对高维二值序列特征进行降维,以及使用局部敏感哈希进行快速检索,然后给出相应的候选确认和样例检出方法。实验表明该指纹特征具有较好的检索效率和表达性,对于轻微噪声和时域全局性变化的鲁棒性较好,但对时域局部变化鲁棒性较差。在音乐版本识别方面,本文首先分析了音乐版本领域内的基础定义、主要问题和通用处理方法。通过对识别流程梳理和各种方法比较分析,构建出完整的音乐版本识别方法。本文对常用的谐波音级轮廓特征进行了改进,加入节拍和调移信息并作为版本识别的核心特征,而且在特征计算前应用了必要的预处理步骤,包括峰值估计、节拍估计和参照频率估计等。实验结果显示本文构建的版本识别方法是有效的。
其他文献
质量控制是市政工程桥梁施工项目中重要环节,能够反映出项目管理的质量,为工程收尾顺利开展提供保障。本文将通过阐述市政工程桥梁施工项目管理中质量控制存在的问题,分析防
<正>"十一五"期间新疆节能减排能源计量工作重点放在对能源计量器具的监管方面。通过节能降耗增效服务队与新疆的重点耗能企业建立对口联系机制,组织专家组驻厂服务与计量测
国家税务总局关于印发《企业所得税汇算清缴管理办法》的通知为了加强企业所得税汇算清缴的清理、规范工作,明确责任,更好地做好企业所得税汇算清缴,总局制定了《企业所得税汇算
随着无线通信系统技术的发展,对无线通信设备也有了更高的要求。作为无线通信系统的最前端——射频接收机,对无线通信系统有着极其重要的作用。由于六端口网络具有设计灵活,
我国文化产业是国家软实力的重要代表,即将成为国民经济的支柱性产业。随着全球经济和科学信息技术的迅速发展,文化产业与科技、金融的融合逐步加强,“文化金融”的概念被提出。
近几年,西班牙语专业在高等职业院校不断推广,成为我国高等教育西班牙语专业教育的重要组成部分。高等职业教育的西班牙语教育,可以为企业,行业提供更多的西班牙语人才,满足市场的
在倡导合理使用传统能源、积极开采绿色可再生能源的时代背景下,智能建筑又增添了新的内容:将太阳能、地热能以及风能等新能源应用系统引入到智能建筑中,以此减少建筑对传统能源
随着儿童道德问题、心理健康问题不断产生,学校教育和家庭教育都面临前所未有的困境,只有家庭和学校联起手来,共同应对,才能使儿童身健心无忧地健康成长。家校合作已然成为教育界
由于湿陷性黄土特殊的结构特性,使得黄土地区的非均匀湿陷性时常会对桥梁桩基等一系列工程造成威胁,甚至产生严重破坏,因此,如何确定非均匀湿陷黄土区桩基承载力和桩侧负摩阻力大
铝制散热器,质量轻,导热性能好,在电子产品中得到广泛应用。但因可焊性差的缺点,限制了它们的进一步使用。为此,本文以1060铝材为基体模拟铝制散热器,开发一种低磷化学镀镍工艺,通过