哼唱式音乐检索系统

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaoxin_vb
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
如何有效地对海量数据尤其是诸如音频之类的多媒体数据进行分析、存储和检索是一个亟待解决的问题。由于原始音频数据的非结构化特性,音频检索受到极大的限制。相对于日益成熟的图像与视频检索,音频检索相对滞后。基于内容的音频检索己成为多媒体检索技术的研究热点。通过音频信号特征提取与表达的研究,对物理特征如过零率、短时能量、功率谱等进行有效地提取,进一步对音频信号的感知特征如响度、亮度、音调等进行提取,最后对响度、亮度、音调进行了准确表达。音符逻辑结构实现了对音调、响度和音长的表达。研究基于内容的音频检索。分析了基于隐式马尔可夫模型的音频检索模型,同时分析了基于模糊聚类的音频检索模型,另外研究了基于动态时间规整DTW算法的音频检索并且实现了基于DTW算法的音调时序的模糊匹配。实现了一个哼唱输入的基于内容的音频检索原型系统。系统具有良好扩展性,并能实现快速、有效、无需训练的音频检索。最后对系统原型的运行结果进行分析,和现有商业系统的运行结果进行比对分析。最后,对发展趋势研究热点进行了展望。提出基于内容的音频检索的发展趋势,确定以感知特征提取为主要研究方向,音频场景分析会成为研究主流,音频内容分类器将成为音频分类的重要研究方向。
其他文献
三维表面重构是计算机视觉领域的一个重要研究方向,已在社会生产生活的各个方面显示出越来越不可忽视的地位和作用。SFS (Shape From Shading)的方法只需单幅灰度图像作为输入
面向服务架构是一种新的系统开发原则与架构模式。针对面向服务的系统开发,Web服务的编程与开发,已经不再是开发所关注的重点,而是更加强调系统的重用与设计。对于由各种服务所
框架,即Framework,目前还没有统一的定义。其中Ralph Johnson所给出的定义基本上为大多数研究人员所接受:框架是整个或部分应用系统的可重用设计,它表现为一组抽象组件及组件
未来的移动通信网络要能够为移动用户提供诸如语音、可视电话、高速互联网接入等多媒体业务,为了保证各类业务的服务质量,同时又最大限度地利用无线资源,支持尽可能多的用户,必须
随着网络技术、数据库技术在教育领域中的广泛应用,以及教育改革和教育信息化的日渐深入,教学资源数据量、内容和形式的极大丰富,教学资源从原始的纸质向电子化、数字化资源
人类社会已进入以网络为中心的信息时代,人们需要更快捷、更可靠、功能更丰富的网络服务。未来的应用将需要更高的吞吐率、更好的交互性、更高的安全性,这要求服务平台具有更强
IDE即集成开发环境(Integrated Development Environment)是进行软件开发必不可少的工具软件,一个方便、成熟、稳定、功能强大的IDE,可显著地提高开发效率。本文主要研究了如何
近年来,随着企业的信息化建设的发展,企业的信息管理系统也越来越复杂。在系统的开发过程中,软件系统的框架设计是非常重要的工作。传统的框架设计常常存在开发周期长,结构不
随着我国软件产业的发展,软件工程化进程的深化,软件质量越来越成为用户方与开发方矛盾的焦点。采取何种措施来保证软件质量,在维护用户利益的同时,促进软件企业的进步是一个现实
XML全称为可扩展无标记语言(eXtensible Markup Language)。它是一套定义语义标记的规则,这些标记将文档分成许多部分,并对这些部分加以标识。由于它允许开发与自己特定领域