室内多声道人类活动声音事件分类研究

来源 :南京理工大学 | 被引量 : 0次 | 上传用户:gg5921
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术发展,人机交互的方式越来越多,实现声音事件识别技术作为辅助人机交互的关键技术逐渐称为研究热点。现阶段的声音事件识别算法多针对公共场所,对室内环境声音特点没有特定的优化,并且往往使用单声道音频并没有采用麦克风阵列。此外,现阶段的声音事件识别性能差、鲁棒性不佳等一系列不足。本文针对这些问题,研究了复杂环境下的室内多声道人类活动声音事件分类研究,本文主要工作如下:1.介绍了传统声音事件识别算法,分别对声音采集、预处理、特征提取、分类器进行研究,并通过仿真分析了其性能。2.针对室内复杂环境下的混响声音条件,研究了一种适用于混响条件下的波束形成算法,该方法基于盲源多路输入输出脉冲响应缩短算法,可有效改善室内环境下混响造成的时间和频率模糊。接着针对室内声音事件信号难以获得准确波达角和不同麦克风阵列几何参数获得的缺点,研究了复高斯混合模型的最小方差无失真响应波束形成算法,该算法可以广泛应用于不同参数的线性麦克风阵列,应对多音源情况,以及提升声音事件信号信噪比。3.对室内声音事件信号进行特征提取,除了提取传统的梅尔倒频谱系数,伽玛音调滤波器倒谱系数特征外,针对室内环境提取了信号的角度谱和频率筛选频谱图特征。4.本文分析了基于卷积神经网络(CNN)和循环神经网络(RNN)的声音识别方法,提出基于卷积循环神经网络(CRNN)识别室内声音事件信号,相对于传统的分类器,有识别性能高、鲁棒性强的优势。由于室内声音事件数据集大,卷积循环神经网络模型相对复杂,针对模型过拟和现象,本文还研究了Batch Normalization和Dropout抗拟合优化算法。通过实测实验分析了不同特征、不同神经网络参数、不同神经网络机构对分类结果的影响。参数调优后,卷积神经网络的识别性能可达到98%的F1值,验证了本文所提算法的有效性。
其他文献
近年来,随着4G网络的飞速发展,短视频已经成为了移动互联网发展的又一风口。短视频因其娱乐属性和社交属性而深受追求个性化的年轻群体的喜爱,其中大学生是其重要的使用群体。短视频的爆发式增长引起了社会的充分关注,因此对大学生群体使用短视频的现状进行调查研究,对于企业改善此类APP以及大学生的理性使用都有着重要的意义。本文对国内外研究现状和用户使用行为进行整理分析,整合了技术接受与使用拓展模型和感知风险理
通过研究行星际闪烁现象,可以研究致密源的角结构,并测量太阳风速度和太阳风等离子体不规则结构,观测数据对理论研究和实际应用都有重要作用。本文对于拟建设的子午工程二期明安图行星际闪烁望远镜关键技术—数字多波束合成技术—进行了研究。利用此技术可形成多个主波束,实现对天空多个射电源同时观测。一、对常规波束合成算法和自适应波束合成算法进行了原理性介绍,并着重介绍了最小方差无畸变(MVDR)算法、线性约束最小
随着我国网络技术的不断发展,中国的网络购物进入了黄金时代。但是,网络购物给消费者带来便利的同时,也慢慢滋养了一个灰色产业链――网络"刷单"。本文主要对我国网络购物现
东营凹陷胜坨油田一区,是一个油源、物源均丰富的含油气区。研究区沙二段上部整体发育高孔高渗储层,但局部储层含油性变化大,非均质性强。目前胜坨油田已经进入开发中后期,随
2018年深化党和国家机构改革方案明确指出,合并省级和省级以下的国税、地税机构,这一举措优化的税务机构的体系,整合了税务干部队伍的人力资源。但是面对经济社会发展的新形势、全面深化改革的新时刻、税源结构调整的新变化、纳税人的新期待,税务机关干部队伍建设依然存在着一些问题和不足。在此基础上,基于H省Y市税务局深化税收征管体制改革的实际,以该局市以下单位为研究对象,通过发放问卷调查、典型调研等方式,了解