论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,音频数据量飞速增长,对海量音频数掘库进行分析、处理和检索就显得尤为必要,而基于音频信号、信息处理方式的连续音频流分类技术也日益引起人们的关注。连续音频流分类技术随其分类目标的不同,实现的难易程度也有很大的差异。本文针对包含复杂背景条件下的语音、歌声和多种环境音的音频数据集,围绕连续音频流分类技术中分类和分段两个方面,对分类特征的提取、筛选和分类器模型的构建,以及分界点的精确定位展开了较深入的研究。
针对音频分类属于与文本内容无关的识别任务的特性,为了尽量消除音频内容信息对分类结果的影响,本文考察了几种常规的长时窗特征参数对不同音频类的区分能力,建立了一个基于矢量量化模板、K-近邻判决准则和线谱对距离矫正的多级二分类音频分类系统,并实验验证了这种方法对复杂音频数据集的分类性能。
论文对概率统计模型用于音频分类进行了研究,并根据复杂音频数据集的特点,提取了涵盖宽音频范围的90维MFCC参数(30维MFCC及其一、二阶动态参数),建立了基于GMM模型的音频分类系统,实验表明基于短时倒谱参数和GMM模型的音频分类系统具有较好的分类效果。
为了提高GMM模型的区分能力和减小MFCC矢量的维数,论文提出了一种将区分性模型训练和特征筛选相结合的多级二分类音频分类方法,每一级二分类子系统分别采用不同的MFCC参数子集为各音频类建立概率统计模型。通过对特征筛选和模型训练的有机结合,极大地降低了系统特征维数,进一步提升了系统性能。
针对传统音频分类算法按固定段长分类时分界点位置不精确,以及贝叶斯信息准则音频分段算法在短时窗内效果不佳等问题,论文引入了改进型的T2-贝叶斯准则分段算法,对其快速迭代算法作了理论上的推导,并就影响分段效果的惩罚因子取值、分段所采用的特征等问题作了详细的实验研究。最后,实现了一个基于T2-贝叶斯准则分段、基于MFCC参数最优子集的多级二分类连续音频流分类系统,初步的实验结果表明该系统具有良好的性能。