基于内容的音频检索系统关键技术及其实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:liongliong520
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和多媒体的快速发展,信息急剧增加,如何在海量的信息中快速准确地检索出有效信息已成为人们的迫切需要。音频检索作为信息检索技术的一个重要分支取得了较快发展,已成为研究热点。同时,随着智能终端的急速发展,音频检索出现了新的要求。因智能终端使用的环境复杂性,查询片段往往带有较多的噪音,这就要求系统具有较高的鲁棒性。为了便于终端与服务器之间的通信,还要求特征数据短小。本文介绍了基于内容的音频检索技术的基本概念,并围绕其关键技术展开研究,主要工作和研究成果包括以下几个方面:(1)分析和研究各种音频特征,包括Mel倒谱系数(MFCC), Chroma旋律特征,多种音频指纹特征(Audio Fingerprint)等。认为音频指纹特征具有较高的鲁棒性,并改进Shazam的音频指纹特征,使之具有较高的抗噪能力,且特征数据较小。(2)分析和研究几种较为常见的音频分类算法,包括动态时间规整,高斯混合模型,隐马尔科夫模型,支持向量机。我们用这些分类器对音频特征进行分类,方便检索。由于这些分类器的时间复杂度较大,在海量音频数据下,分类器的训练需要花大量的时间,且影响分类器性能。在本文检索系统中,使用Hash算法来实现分类。(3)通过音频分类后,音频数据已完全结构化,使用较为成熟的文本检索技术来实现音频检索。我们采用倒排索引实现检索,不同于Hash索引,其支持海量音频数据的查询,且可以直接使用现有系统,如Lucene等。(4)研究音频匹配算法,将改进的编辑距离作为检索系统的精匹配部分,同时,多步优化,使其具有较快的运算速度。
其他文献
流媒体业务中间件之多媒体展示框架,对原有的流媒体展示业务进行了模块和功能的重构,对下层硬件进行了封装并为上层应用提供了统一的接口。基于该框架的信息发布系统已投入市场
近年来,Android操作系统以其出众的开放性受到广大用户和移动设备厂商的青睐。Android系统采用基于权限的访问控制模型来保护系统内部的重要资源。应用程序在Manifest文件中
  本文提出了一种基于部件的网络安全集成防御系统,该系统具有开放式的架构和良好的可扩展性,它将传统的被动防御和主动防御有机地结合在一起,并且提供了集成化的检测、报告和
目前,信息化网络化的热潮正影响着教育行业,以教育信息化带动教育现代化己成为教育部门工作重点之一,大量的学校己投入许多资金,建设了校园网络,随着各学校局域网络的完善,各校内不
双目视觉系统是机器人模拟人类视觉系统的一种方法,能够获取景物的三维信息,有利于进一步场景分析和机器人路径规划,具有单目视觉无法比拟的优势,是三维重建和机器视觉领域的
WAP技术将移动网络和Internet以及公司的局域网紧密地联系起来,提供一种与网络类型、运营商和终端设备相对独立的移动增值业务。所以,移动互联网的实现需要以下三个环节:WAP
计算机网络的广泛应用给人类的生产、生活、学习乃至整个社会的发展带来了深远的影响。无线网络因其便捷、灵活、小巧和抗毁性好而在网络应用中占有独特的位置。据专家估计,20
通过Internet人们可以方便快捷的访问各种异构、自治的信息源,而信息集成系统就是使用户进行无缝访问这些信息,它通过提供一个统一的界面来存取那些资源。在信息集成上,过去
安卓系统为第三方应用开发商提供了一个开放的环境,同时无缝集成了许多优秀的Google应用服务,这些优势使得其迅速成为世界上最流行的智能终端系统之一。随着安卓用户的与日俱
互联网的开放性为信息共享和交互提供了极大的便利,但随之而来的网络安全问题也日益明显。入侵检测是用于检测任何损害或企图损害系统的保密性、完整性或可用性行为的一种网