基于深度学习的声音事件分类和定位检测研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:huruiwangmin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在人类的感知系统中,视觉感知和听觉感知是两种主要感知手段,其中,声音是传递信息的重要媒介,也是听觉感知系统的基本要素之一。当前,随着人工智能技术的迅速发展,机器视觉、计算机视觉等方面的技术虽趋于完善,但机器听觉的主要研究对象是语音和声纹,其对复杂声音事件分类和检测等领域的研究仍相对匮乏。目前声音事件分类主要应用于公共安全智能化监控、异常声音检测、城市噪音检测等领域。但当前已有的声音事件分类和定位检测模型仍存在分类准确率不够高、定位精度较低以及检测错误率较高等问题,针对上述问题论文进行了如下研究:(1)为解决单特征输入时现有声场景分类方法分类准确率不高且泛化能力不强的问题,提出了一种基于多流卷积和多维混合数据增强的声场景分类方法。首先,介绍了单输入卷积和混合数据增强的基本原理;其次,设计了一种多流卷积神经网络模型以期实现多流特征融合,其由特征提取模块和特征融合模块组成。特征提取模块可针对性地对不同特征图中的信息进行提取,并在特征融合模块中进行聚合;然后,提出了一种多维混合数据增强方法以实现特征数据的平滑处理。最后为验证该方法的有效性,采用9种特征组合方案,基于Urbansound8K,ESC50和ESC10数据集分别开展了声场景分类实验。实验结果表明:模型的准确率分别为88.29%、77.75%和96.25%,验证了该方法进行声场景分类研究时,模型具有较高的准确率和较强的泛化能力。(2)为解决现有频谱分离方法进行声学场景分类研究时其分类准确率不高的问题,提出了一种基于声学特征分离和长距离自校正卷积神经网络的声学场景分类方法。首先介绍了频谱图的谐波打击源分离原理;其次,提出了一种梅尔频谱图和伽马通频谱图分离算法;然后,结合自校正神经网络和残差增强机制,提出了一种长距离自校正卷积神经网络。该模型采用频域自校正算法以及长距离增强机制来保留特征图原始信息,且结合多尺度特征融合模块,以进一步提取模型训练中输出层的有效信息,从而提高模型的分类准确率;最后,基于Urbansound8K和ESC-50数据集开展了声学场景分类实验。实验结果表明:梅尔频谱图的残差分量能够针对性地减少背景噪音的影响,从而具有更好的分类性能,且LSCNet实现了对特征图中频域信息的关注,其最佳分类准确率分别达到90.1%和88%,验证了该方法的有效性。(3)针对现有声音事件定位检测方法的准确率较低的问题,提出了一种时频自校正卷积循环神经网络的声音事件定位检测方法。首先,结合自校正神经网络和残差增强机制,提出了一种时频自校正算法,该结构采用时频域自校正算法来保留特征图原始信息,其既保证了输入特征图和输出特征图尺寸的一致性,又减少了卷积运算量,从而提高了训练效率。其次,结合长短时记忆网络提取长时音频特征中的上下文信息以提升模型的定位检测精度,从而得到声音事件开始时间、结束时间、方位角和仰角等预测值。然后基于混合数据增强方法,提出了一种三维混合数据扩充方法以降低模型过拟合的概率,最后,基于Dcase2017、Dcase2019和ANSYN数据集开展了声音事件定位检测实验,实验结果表明,该方法能够有效提高声音事件定位检测精度。
其他文献
食品安全关系人民群众身体健康和生命安全,关系中华民族未来。党的十九大报告明确提出实施食品安全战略,让人民吃得放心。然而当前我国食品安全状况依然不容乐观,食品安全问题频频发生,反映出我国食品企业普遍存在企业社会责任缺失的问题。为了能够改善我国食品安全现状,我国政府近年来已经出台了《食品安全法》《食品召回管理办法》等多项食品安全相关法律法规,其中,《食品召回管理办法》的发布体现了政府对食品召回和防控食
学位
长三角经济发展势头强劲,经济总量持续增长,但长三角三省一市的经济发展存在较大的差异性,发展不均衡,城市之间经济差距较大。同时在经济迅速发展的过程中也带来了生态环境的问题。推动长三角区域协同发展,努力实现长三角地区经济绿色可持续发展,对于增强长三角地区的创新和竞争能力、进而带动全国提升技术进步和技术效率改进具有重要意义。绿色全要素生产率(GTFP)的测算,可以很好的测度经济的绿色发展水平,衡量经济发
学位
群体决策的目的是为了达成共识。在信息爆炸和快速变化的时代,群体共识达成的过程变得愈加复杂,可能产生作用的影响因素也多种多样。因此,将传统群决策方法与社会网络分析方法结合起来,研究互联网背景下的群体共识决策问题,是对现有研究的丰富和拓展。在考虑群体达成共识过程中决策者之间观点演化的基础上研究社会网络中的群体决策行为,既增加了理论研究与现实情况之间的联系,又提高了相关理论研究的现实意义,为研究现实决策
学位
目的:探究趋化因子CCL28在原发性肝细胞癌(Hepatocellular carcinoma,HCC)中的预后指示价值及在HCC发生发展过程中的作用并进行初步的潜在分子机制探索。方法:通过生物信息学手段,利用肿瘤数据库中HCC样本及相应临床信息探寻CCL28的表达水平与HCC分期、分级、进展的相关性;通过R4.1.0软件采用log-rank检验进行Kaplan-Meier生存分析,比较CCL28
学位
冲突是指两个及两个以上的个体或群体为了各自利益诉求采取行动以战胜他人所形成的一种状态,其广泛存在于个体和群体之间。现实生活中存在着大量冲突问题,从各国之间的竞争和协作,到个人之间的交往,无不包含着冲突的理念。事实上,冲突是人类行为的固有特征,也是人类创造的社会组织的固有特征。解决冲突问题,特别是解决决策者和决策者间存在层次关系的冲突问题,例如各地水域的治理问题、产业技术协同研发问题,对于促进经济、
学位
写作是一个复杂的认知过程,包括计划、产出、修改等子过程(Hayes&Flower,1980;Kellogg,1996)。修改是写作过程的重要组成部分,可以体现写作过程的相互作用和交替,因此是观察写作过程的一个重要指标。学界关于写作中修改的影响因素研究有很多,但话题熟悉度作为二语任务设计的重要因素,目前还没有得到同等关注。现有研究大多关注写作结果,对潜在的写作过程研究不够深入。本研究以写作模型以及图
学位
食品的口感属性与其流变性能和口腔组织表面特性的组合密切相关,仅从流变学角度出发难以评估流体食品在真实口腔环境下的口腔感知,其在口腔环境中润滑性能也非常重要,它有助于洞察摩擦学与感官感知相关性的驱动机制。为应对愈发多元化的饮品需求,流体食品润滑机制的研究极其重要。因此,本文主要开展基于模拟口腔环境下蔗糖和豆浆粉溶液润滑性能的试验研究,并建立囊括牛顿和非牛顿流体食品的口腔软接触滑移模型,从试验和理论角
学位
企业在开展创新活动时,由于面临海量的外部信息和复杂的内部资源,可能会面临选择的困境。高管是企业重要的战略资源,高管团队内部上下级之间的关系作为组织中的一种基本纽带,是企业重要决策有效实施的关键。面对外部大量的新技术新知识等资源,需要探讨具有特征差异的高管是如何将自己注意力聚焦在创新议题上的。面对丰富的企业内部资源存量,需要了解高管是如何掌握有价值的资源并支持创新活动的。因此,探明其中具体的影响机理
学位
推进信息技术与农业产业融合发展,开拓农产品互联网营销渠道,对改善信息不对称导致的结构性供需失衡问题,提高农业产业经营收入具有积极的社会效益,是推进乡村振兴进程的重要步骤。鉴于生鲜农产品对存储和运输条件的特殊要求,传统离线渠道仍为主要流通渠道,生鲜电商市场还有较大扩张潜力。拉动内需,提振消费是刺激产业发展,促进国内大循环,构建新发展格局的重要手段。因此,探究消费者对多元化生鲜农产品销售渠道的选择意愿
学位
全脂奶粉是一种脂肪含量高,营养丰富的奶粉类产品,其中方便携带、经济适用的软包装产品具有广阔的市场需求。但在储存过程中全脂奶粉相较普通奶粉更易吸湿结块、氧化酸败,货架期预测难度大,且仅考虑单一指标的货架期预测误差较大。因此,对软包装全脂奶粉进行基于综合指标的货架期预测系统研究,并以此展开包装设计具有重要意义。本文以全脂奶粉为研究对象,实验分析其吸湿特性与氧化特性,设计贮藏实验分别确定其吸湿、氧化阈值
学位