连续音频流分类方法研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:zhangchenglin427
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术、网络技术和通讯技术的不断发展,音频数据量飞速增长,对海量音频数掘库进行分析、处理和检索就显得尤为必要,而基于音频信号、信息处理方式的连续音频流分类技术也日益引起人们的关注。连续音频流分类技术随其分类目标的不同,实现的难易程度也有很大的差异。本文针对包含复杂背景条件下的语音、歌声和多种环境音的音频数据集,围绕连续音频流分类技术中分类和分段两个方面,对分类特征的提取、筛选和分类器模型的构建,以及分界点的精确定位展开了较深入的研究。 针对音频分类属于与文本内容无关的识别任务的特性,为了尽量消除音频内容信息对分类结果的影响,本文考察了几种常规的长时窗特征参数对不同音频类的区分能力,建立了一个基于矢量量化模板、K-近邻判决准则和线谱对距离矫正的多级二分类音频分类系统,并实验验证了这种方法对复杂音频数据集的分类性能。 论文对概率统计模型用于音频分类进行了研究,并根据复杂音频数据集的特点,提取了涵盖宽音频范围的90维MFCC参数(30维MFCC及其一、二阶动态参数),建立了基于GMM模型的音频分类系统,实验表明基于短时倒谱参数和GMM模型的音频分类系统具有较好的分类效果。 为了提高GMM模型的区分能力和减小MFCC矢量的维数,论文提出了一种将区分性模型训练和特征筛选相结合的多级二分类音频分类方法,每一级二分类子系统分别采用不同的MFCC参数子集为各音频类建立概率统计模型。通过对特征筛选和模型训练的有机结合,极大地降低了系统特征维数,进一步提升了系统性能。 针对传统音频分类算法按固定段长分类时分界点位置不精确,以及贝叶斯信息准则音频分段算法在短时窗内效果不佳等问题,论文引入了改进型的T2-贝叶斯准则分段算法,对其快速迭代算法作了理论上的推导,并就影响分段效果的惩罚因子取值、分段所采用的特征等问题作了详细的实验研究。最后,实现了一个基于T2-贝叶斯准则分段、基于MFCC参数最优子集的多级二分类连续音频流分类系统,初步的实验结果表明该系统具有良好的性能。
其他文献
由于信息安全产业的兴起,虹膜识别技术作为最有潜力的生物识别技术之一正受到各行各业越来越广泛的关注,它能够取代传统的密码、IC卡等身份认证方式从而更好地保障个人信息安
电力线信道特性关系到调制方案选择、纠错编码设计、网络方案设计等许多方面,有效掌握电力线信道特性是设计高速电力线通信系统的基础。本文主要结合重庆市教委科学技术研究项
碳纳米管作为一种新型的纳米材料,具有良好的电学、热学和机械性能,在电子材料和器件领域具有极为广阔的应用前景。然而碳纳米管与金属电极接触的肖特基势垒较大,严重影响了
档案管理在基层公路养护管理工作中占据着重要位置,是各项工作有序开展的基础,主要是对基层公路养护工作中的相关内容进行详细记录,能够为后续工作的顺利开展提供参考依据.公
磁电复合材料因具有磁电转换功能而广泛应用在滤波器、磁场传感器、换能器、信息存储器等方面,目前已成为铁电、铁磁功能材料领域研究的热点。本文以聚偏氟乙烯PVDF基磁电复
随着经济的发展和社会的进步,电力企业在获得更加广阔发展空间的同时也迎来了更高的发展要求和目标,如何提高电力企业的核心竞争力已经成为当前工作的重中之重.而业扩报装管
在我国,由于事业单位的重要职能定位,决定了事业单位档案管理工作在社会各项事业发展中所具有的极其重要作用.随着社会的进步和科学技术的发展,新时期事业单位档案管理也面临
档案管理在街道办事处的工作当中占据着重要的地位,既可以真实反映出街道的面貌,还可以为党工委及相关部门的重要决策提供依据,因此,基层街道办事处必须积极推进档案管理工作
本文分析了山区教师职业倦怠的现状及归因,以及一些行之有效的调试策略,希望能给我们的教学带来帮助.
锌指抗病毒蛋白(Zincfingerantiviralprotein,ZAP)是通过高通量功能基因组筛选得到的抗病毒蛋白,能够抑制鼠白血病病毒、部分甲病毒属病毒和丝状病毒的复制。ZAP特异性结合靶病