压缩域鲁棒音乐识别算法研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:mawenxing8155
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字化的音乐伴随着互联网的飞速发展已经成为音乐存储的主流媒体,并且数量庞大,按照传统人工的检索和识别音乐,已经变得非常困难,并且也不能满足人们对检索方式要求。而数字指纹作为音频信息检索的一种自动化方式迅速成为了工业界和学术界研究的热点。数字音频指纹是指可以代表一段音乐重要声学特征的基于内容的紧致数字签名,主要目的是建立一种有效机制来比较两个音频文件的感知听觉质量,可用广泛的应用在在音频识别、检索,内容完整性校验等实际场景。虽然MP3已经成为最常见的数字音乐存储和传输格式,但是绝大多数已发表的数字音频指纹算法仍是基于非压缩域如WAV格式的音频特征,直接作用在压缩域上的算法尚不多见,且效果一般。在本文介绍了音频指纹系统的基本知识,应用场景,大致系统框架和主流算法。讲解了压缩域内的基本知识及其研究情况。在此之上,我们提出了两大类压缩域音频指纹算法,并给出了实验原理和结果。第一类算法使用的特征为压缩域内频谱熵,该特征主要利用了压缩域内系数频谱熵的统计特性,使得指纹具有较好的稳定性。使得原始片段受到处理后,也不会破坏这种统计特性,这样算出的特征依然保留着较强的稳定性。第二类算法用到的特征是压缩域内系数的低阶Zernike矩。算法大致过程是使用压缩域内的MDCT系数构成“伪图片”,计算“伪图片”的低Zernike价矩。而计算Zernike矩的过程是将原始数据进行正交分解的过程,依据Zernike矩的理论特性和实验证实,高阶矩代表了信号的细节分量,容易受到信号处理的影响,而低阶矩则相反。试验中则充分结合Zernike低阶矩的稳定特性和高阶矩的易变特性,构成的最后指纹,使得最后的指纹既有较好的鲁棒,又有充分的区别性。两类算法的实际效果在试验中得到了验证。实验结果表明两类算法都能够对频域内的变调,加回声,加噪音,均衡化,变音量,压缩和带通等,有着较强的鲁棒性,同时也对于时间域的TSM攻击有着一定的抵抗能力。
其他文献
随着信息技术的飞快发展,网络逐渐成为人类生产、生活所必需的一种载体和工具。网络一旦发生故障,将给人们带来重大的影响,因此加强网络可靠性建设迫在眉睫。在分析网络可靠
电力系统中电能质量扰动信号的检测和压缩是目前新兴的研究课题,其随着电力信息化的发展、电网规模的扩大、供电质量的提高而变得越来越重要。现代工业、商业及居民用户的用电设备对供电质量也提出了更高的要求,而谐波分析作为衡量电能质量的重要手段引起了人们越来越多的重视,其中对非稳态谐波的分析更是其中的重点和难点。另一方面对电能质量实时监测要求的不断提高,巨量数据的存储与通信问题已成为电力系统中一个非常重要且亟
随着可信计算的提出和发展,意识到把可信计算机制与网络接入机制进行结合,把可信扩展到网络,从终端开始保证网络可信,建造可信网络。可信网络包括接入端的可信、传输数据可信
数据流是大数据的主要形式。概念漂移的探测以及数据流的分类是当前数据流挖掘的主要研究方向。虽然有不少概念漂移的探测方法,但是他们都有一些共同的缺陷:没有从整体上删除
当前在可穿戴计算工程中有十几项关键技术,如微型处理器、无线自组网、System-on-Chip(一个芯片一台机)、无线通讯、嵌入式操作系统等都是当前计算机科学的难关。近年来,随着
块匹配运动估计在H.264视频编码中占一半以上的计算量,其匹配速度和精度直接影响到编码的速度和质量。通常,搜索模板和搜索策略对块匹配运动估计起着决定作用。然而以往的块
量子可逆逻辑电路的研究对于量子计算与量子信息的发展具有重要的意义,可逆性使得量子可逆逻辑电路不仅能够应用在量子计算,而且可以应用于低功耗CMOS、纳米技术以及光计算等领
Web服务在面向服务计算(Service Oriented Computing)模型中占有重要地位,在语义网(Semantic Web)的建设中发挥作用,在面向服务架构(Service Oriented Architecture)中承担中
随着电子技术、计算机,网络通信技术的发展,嵌入式移动视频监控应用领域越来越广。本文采用达芬奇技术的TMS320DM355视频处理芯片和MPEG-4视频编码格式,配合开发成本相对低廉
随着计算机技术、Web技术的飞速发展,信息量日益俱增。与此同时,由于电子数据采集手段的增加和数据存储成本的下降,人们可以便捷地实现在计算机上海量存储个人信息,如何有效