论文部分内容阅读
随着多媒体技术的迅速发展,越来越多的多媒体信息以数字形式存储和传输,这为人们更灵活地使用这些信息提供了可能性。但随之而来的问题是,面对大量的数据库中包含多媒体数据,人们已经不再满足于通过一般的属性(如名字、年月、价格等)进行检索。如计算机检索音频片断,可以使用基于标题或文件名的文本标注方式,但是传统的基于关键字或文件名的检索方法显然不适于数据量庞大、又不具有天然结构特征的各种音频数据。随着AOD(Audio-on-Demand)、VOD(Video-on-Demand)、音频解析等系统的应用与推广,都需要高效的音频信息检索技术。
传统的基于属性的检索不能支持实时音频数据流以及基于内容的或听觉特征的检索,在一些具体应用领域中有很大的局限性。因此近年来,基于内容的音频信息检索(ContentBasedRetrieval,简称CBR)就成为多媒体检索技术中的一个重要的方面。
目前国内外对音频检索与定位仅限于数据库类型,而对实时的音频数据流却较少研究和开发报道,因为这不仅要求准确率而且还要有快速算法具有实时性,以保证实时处理的要求。随着互联网多媒体数据以及数字化电视的不断发展与变化,对实时音频数据流的检索与定位要求必将越来越多。而基于音频信号的信息检索与定位是该技术实现应用的关键。基于电视、广播在现代社会、经济中的重要性,电视、广播信息检索深受国内外研究机构重视。
本文主要讨论一种基于音频信号的广告条目检索和定位方法,它利用自适应的分帧方法和短时处理方法以及归一化互相关函数从音频数据流中快速检测和定位广告条目。通过这项研究可以对实时音频的特征参数提取、检索与定位提供新的技术与算法。从而解决用户对实时音频信息的检索定位要求,它还可以应用于存有庞大音频数据的数据库的快速检索与定位。
本文以16kHz的采样频率的从电视伴音信号采集大约500条次共计120分钟长度的广告伴音信号,作为研究对象研究开发音频信息检索算法。基于Matlab平台,编程实现特征参数提取算法、音频检索定位算法。为了提高并行检索的速度,引入自适应分帧处理的方法。分别采用中心削波处理和归一化处理方法解决噪声干扰和绝对能量大小不确定的问题。独立的完成了对数据的采集,处理以及最后的实验验证从而形成了一种新的基于内容的广告检索定位方法,在最后并对程序进行了大量的实验数据验证。从结果来看,对一般信号的识别处理其识别率达到100%,对特殊信号如处于开始或者结尾部分的信号其识别率为85%-95%之间,对10秒左右的广告模版进行60秒左右的检测识别时间平均为0.09-0.1秒左右,基本上实现了预期的效果。