论文部分内容阅读
近年来随着多媒体数据成数量级的增长,对于多媒体的分析和分类变得越来越迫切。当人们阅读和理解视/音频内容时,作为多媒体数据中重要部分的音频,为人们的感知提供了重要的线索。如何有效地对海量的音频数据进行分析、存储和检索是一个需要解决的问题。由于音频文件的非结构化特性,音频检索受到了很大的制约。基于内容的音频检索已成为多媒体检索的研究热点。本文对基于内容的音频分类检索的关键技术展开分析,主要在以下几个方面展开了工作:
首先,按照特征提取单位长短的不同,可以从音频信号中提取音频帧特征和音频例子特征两种形式。基于帧的音频特征包括了过零率、短时平均能量、MFCC及其差分系数。基于例子的音频特征包括带宽均值、静音比、基音变化率、高过零率比以及小波各子带能量比等常用特征,并增加了HMM概率输出值这一特征。
其次,研究了最常用的两种分类模型隐马尔可夫模型(HMM)和支持向量机(SVM)模型。在HMM识别时候,实验发现正分的时候正确分类的类别与其它类别之间的概率输出差值比较大,误分的时候错分类别和正确类别之间的概率输出差值比较小。通过引入最小分类错误(MCE)准则,设定一个阈值,把音频在HMM中最大输出概率和次大输出概率进行比较,如果差值小于某个设定的阈值,则再用SVM进行识别做出最终的识别结果。当用户提交了需要检索的音频例子,检索系统采用基于分类模型的音频例子检索技术从音频例子库中检索出最相似的若干音频例子返回给用户。
最后,采用了COM组件实现Matlab与C#的混合编程来实现音频自动分类系统,介绍了系统的体系结构、主要功能以及开发的关键技术,该系统能够满足对音频分类和检索的基本要求。