基于深度学习的音频场景识别研究

来源 :东北石油大学 | 被引量 : 0次 | 上传用户：bigcat8194

【摘要】

：

随着互联网及新媒体平台的迅猛发展,音频数据总量变得越来越庞大。在大数据及人工智能的背景下,音频场景识别技术可应用的领域越来越广泛,其重要性不言而喻。音频场景识别本

【作者】

：

张溯

【出处】

：

东北石油大学

【发表日期】

：

2004年期

【关键词】

：

音频场景识别卷积神经网络梅尔频率倒谱系数 K近邻算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网及新媒体平台的迅猛发展,音频数据总量变得越来越庞大。在大数据及人工智能的背景下,音频场景识别技术可应用的领域越来越广泛,其重要性不言而喻。音频场景识别本质上是对声音信号中包含的声音特征及声学事件进行感知,并加以处理和分析,从而对音频信号进行分类。声学特征的选择直接影响分类结果的好坏,因此选择合适的声学特征尤其关键。梅尔频率倒谱系数(MEL Frequency Cepstrum Coefficient,MFCC)能够模拟人耳对声音处理的特质,计算方面较其他声学特征更容易,能够抓取信号中具有辨识度的部分。因此,在有关音频识别的分类任务中,MFCC的抗干扰能力优于其他声学特征。近年来对于人工智能的研究渐渐成熟,深度学习技术飞速发展,在模式识别、机器学习等领域取得了革命性的突破,使得越来越多的人投身有关深度学习的研究。深度神经网络是深度学习当中的一个重要研究方向,相较于浅层神经网络,其拥有更复杂的网络结构,更强大的运算组合能力,更细致的特征分析能力。卷积神经网络(Convolutional Neural Network,CNN)采用深度学习构架,是深度神经网络中的一种经典网络模型,具有权值共享、局部连接等特性。这使得卷积神经网络在训练过程中所需要学习的参数更少、网络节点更少,降低了网络复杂度,减少计算开销。卷积神经网络具有出色的特征提取能力,由于特有的网络结构,其抗畸变能力更强,具有输入不变性,在分类任务中表现尤其出色。本课题选用MFCC作为场景音频所提取的声学特征,利用CNN在特征提取及分类方面的优越性能对声学特征进一步抽取和分析,得到更加高级、抽象的特征,并对其进行分类,达到提升分类准确率的目的。本文主要工作如下:(1)对音频场景识别技术、深度学习、声学特征等方面展开深入调研,整理并总结各领域国内外发展现状,对深度学习及音频场景识别技术的发展历程、声学特征的分类及其特点进行了详细介绍。(2)阐述了MFCC的原理并给出提取流程,介绍了K近邻算法(K-Neighbor Nearest,KNN)的理论基础及分类流程,设计并搭建了使用KNN作为分类器的基线实验系统,调整重要参数进行多组对照实验,得到并分析实验结果。(3)介绍了CNN的网络结构、计算方式、学习算法及应用范围等。设计并搭建了基于MFCC和CNN的音频场景识别系统,给出了实验整体流程及系统中卷积神经网络的网络构架。首先,对场景音频进行声学特征的提取,将声学特征数据集分为训练样本集及测试样本集两类。接下来利用训练样本集对卷积神经网络进行训练,使网络训练至收敛,使权值等参数的学习达到最优状态。最后,使用完成训练的卷积神经网络对测试样本集进行音频场景的识别,得到场景识别准确率。同时,对CNN中的重要参数:卷积核大小、特征图数量、激活函数等进行调整,对比在参数调整后分类准确率的变化大小及趋势。通过对两组实验结果的观察可以得到,基于MFCC和CNN的场景识别系统的整体识别率比基线系统高出1.4个百分点,通过调整卷积核尺寸、特征图数量等参数后,整体识别率又有小幅度上升。因此,基于MFCC和CNN的实验系统在整体识别率方面优于基线系统。

其他文献

气道高反应性与细胞因子关系的研究进展

气道高反应性(AHR)是支气管哮喘的重要特征之一.目前认为气道炎症是AHR的重要基础,尤其是TH2型细胞因子IL-4、IL 5、IL-13、IL-9、IL-10等的增多,在AHR的发生发展中起到重要

期刊

气道高反应性细胞因子作用机制治疗

论高职院校宿舍人际关系模式与大学生心理健康

宿舍成员之间交往模式虽然具有相对的稳定性,但也不是一成不变的。在遇到重大外力作用时,这种交往模式可能会发生改变。在通常情况下,根据大学的学期设置及伴随的各种外力作

期刊

高职院校宿舍人际关系心理健康

古代文论之“通变”论

“通变”语出《文心雕龙》,是刘勰以《易》之发展思想为指导研究文学发展规律的概念,集中代表了我国古代文论在继承与创新关系问题上研究的最高成果。中国古代文论“通变”论

期刊

中国古代文论文学创作《易》《文心雕龙》古文运动

针“四天”穴为主治疗颈源性眩晕的临床疗效观察

期刊

眩晕四天穴针刺

西藏南木林县秦马弄地区二长花岗岩体岩石成因

以出露在西藏南木林县秦马弄地区二长花岗岩体为研究对象,从野外地质调查、岩石学、LA-ICP-MS锆石U-Pb定年、元素和Lu-Hf同位素地球化学等方面对其进行了分析研究。结果显示:

期刊

秦马弄二长花岗岩锆石U-Pb定年元素与Lu-Hf同位素地球化学岩石成因冈底斯

多角度把握力电综合问题

<正>力学和电学的综合题是历年高考物理的热点和难点,且多数为压轴计算题,考查频率达100%,因此它在高考中占有非常重要的地位,为了更好地把握这类问题,可以从以下二个角度进

期刊

电场力机械能守恒匀速运动动能定理

《新宿事件》——偷渡者的身份迷失

《新宿事件》是由尔冬升导演花了十年的时间搜集资料筹备而成的电影,影片以上世纪90年代中国偷渡潮兴起为背景,讲述了铁头、阿杰等一群偷渡者由日本社会的最底层借助黑社会力

期刊

《新宿事件》偷渡者身份迷失

肝门静脉积气的研究进展

肝门静脉积气(hepatic portal venous gas,HPVG)是一种少见的影像学表现,是由于各种原因导致气体在门静脉及肝内门静脉分支异常聚集起来形成的。1955年Wolfe和Evans[1]首次报

期刊

肝门静脉积气门静脉积气治疗

城乡收入差距对碳排放影响的经验证据——兼论“公平”何以提升“效率”

本文采用中国1998年至2013年的省级面板数据,检验了城乡收入差距对碳排放的影响,为"公平"(城乡收入分配优化)何以提升"效率"(碳减排视角的经济效率)提供了较好的诠释。实证过

期刊

城乡收入差距二氧化碳排放固定效应模型两阶段最小二乘法分位数回归

纵向国家权力体系下的区域法治建构

区域法治是根据区域特色实行法治治理,以形成既具有法治共性又强调地方个性的法治运行模式。地方自主是区域法治的根基所在。纵向国家权力体系下,地方自主基于中央与地方权力

期刊

区域法治纵向国家权力体系地方自治央地共治集权分权

基于深度学习的音频场景识别研究

其他学术论文