论文部分内容阅读
音频处理在多媒体信息处理中占有重要地位。原始音频数据是一种非语义符号表示和非结构化的二进制流,如何提取音频中的结构化信息和内容语义是音频信息深度处理、基于内容的音频检索以及辅助视频分析等应用的关键。基于内容的音频分类作为解决音频结构化问题的核心技术,是当前音频内容自动分析领域的一个研究热点。 本文围绕音频分类的两大技术难点一特征分析与抽取以及分类器设计展开研究,主要内容如下: 概要地介绍了HMM的基本理论和主要算法。深入研究了语音、音乐的区别性特征及其计算方法,采用了音频clip和音频帧相结合的方法进行音频特征抽取。提出了一种基于各态历经混合高斯密度隐马尔可夫模型(EMGD HMM)的音频分类器,用于语音、音乐以及它们混合声音的分类。该分类器采用了全连接Markov链,从而能够有效地描述音频中的状态反复情况。对比实验结果表明,该分类器具有很高的分类精度。尝试了结合小波分析和傅立叶分析进行音频特征抽取,其中对子带能量和基音周期采用小波分析抽取,对频谱中心、带宽等特征则采用傅立叶分析抽取,并在本文提出的EMGD HMM音频分类器上进行了实验考察,结果表明该方法也是一种有效的音频特征抽取方法。