【摘 要】
:
随着麦克风阵列信号处理技术的发展,麦克风阵列被广泛应用于声源定位中,尤其是室内环境下(例如会议室、演讲厅、多媒体教室)。但是现有基于麦克风阵列的室内声源定位技术在噪声大、混响强的环境中存在定位准确率不高的问题。近年来发展迅速的卷积神经网络相对于传统方法,能够学习到具有更强泛化能力的特征,进而有效提高定位性能。因此,将卷积神经网络与传统声源定位技术相结合已经成为研究热点之一,具有广泛的应用前景和良好
论文部分内容阅读
随着麦克风阵列信号处理技术的发展,麦克风阵列被广泛应用于声源定位中,尤其是室内环境下(例如会议室、演讲厅、多媒体教室)。但是现有基于麦克风阵列的室内声源定位技术在噪声大、混响强的环境中存在定位准确率不高的问题。近年来发展迅速的卷积神经网络相对于传统方法,能够学习到具有更强泛化能力的特征,进而有效提高定位性能。因此,将卷积神经网络与传统声源定位技术相结合已经成为研究热点之一,具有广泛的应用前景和良好的实际应用价值。本文针对室内混响环境,重点研究卷积神经网络(CNN)在传统声源定位算法中的应用。首先针对有无混响的情况,介绍了麦克风阵列的理想模型与混响模型,以及常用产生房间脉冲响应的Image方法。然后通过仿真实验发现了常用的可控功率响应波束形成(SRP)算法在混响环境下定位效果不佳,因此首先研究了基于波束形成的CNN声源定位算法。传统的SRP算法通过不同频段直接叠加后寻找最大值来实现波达方向估计,而本文利用CNN对于不同频段的权值因子进行训练,划分为贡献型分量和破坏型分量,然后进行加权叠加实现性能更优的方向估计。为了进一步探究CNN在室内声源定位中的应用,本文还研究了基于匹配场的CNN声源定位方法,该方法通过将房间划分为一个个相同大小的声源位置,计算不同麦克风接收到的信号之间的互功率谱密度矩阵,将矩阵放入CNN模型直接进行训练从而从分类器角度实现声源定位。最后,通过开展仿真以及外场实验,验证了上述两种算法具有良好的定位准确性,研究成果为CNN在基于麦克风阵列的声源定位领域中的广泛使用奠定了良好基础。
其他文献
现代社会对钢铁有巨大的需求,尤其是对于正处于高速发展的中国,我们需要大量的钢铁来建设基础设施。钢板表面的缺陷会严重影响钢板的强度与性能。为提高钢板的质量、提高钢板的生产效率,搭建一个高效的缺陷检测系统是必不可少的。本文调研了钢板表面缺陷检测在国内外的发展历史,发现使用机器视觉的方法进行缺陷检测和分类是最优的解决方案。在此基础上,根据收集到的钢板表面缺陷图像,进行相关检测算法的研究。对缺陷的图像的处
知识图谱补全任务根据知识图谱中已有的知识三元组来预测实体之间缺失的关系以形成新的三元组,又称链接预测;实体对齐任务是在不同的知识图谱中找出语义上指代同一个客观世界实体的实体,从而将多个知识图谱融合起来。知识图谱嵌入技术将知识图谱中的实体和关系表示为连续向量空间中的低维向量,为上述两项任务提供了良好的技术基础。知识图谱嵌入模型应尽可能多地表达不同类型的关系连接模式和映射性质,以捕获更丰富的实体和关系
在现代社会,随着智能化高速公路交通管理的飞速发展,交通道路的信息采集技术显得尤为重要,而线性调频连续波(LFMCW)雷达因其距离分辨能力高,抗干扰能力强等优点为高速公路车辆目标检测提供了思路。本文完成了基于LFMCW的车辆检测雷达的FPGA信号处理系统的设计与算法实现,适用于高速公路车辆检测的场景。本论文主要完成了以下几项工作:(1)完成了系统方案的设计与仿真。首先分析了任务需求和参数指标,然后根
随着5G通信技术的飞速发展以及国家政策的支持,EHF频段通信系统受到越来越多的关注,各国学者从高频段、宽带、小型化等多方面对其展开了研究。本文以小型化、平面化、集成化为设计目标,基于CPCI标准板卡对EHF频段宽带下变频组件进行了设计,实现了将EHF频段射频信号下变频为L频段中频信号,并利用微组装技术和金丝键合工艺进行装配加工。首先,本文对EHF频段下变频组件国内外的研究现状进行了调研,并介绍了变
对视网膜病变进行完整的分割是重要的临床诊断手段。地图状萎缩(GA)是干性老年性黄斑病变(AMD)的晚期表现,是导致永久性中心视力丧失的重要原因。得益于轴向方向的高分辨率成像,频域光学相干断层扫描(SD-OCT)可以为视网膜结构提供3D视角。深度学习已在SD-OCT图像分割中取得了良好的表现,然而对大量标注数据的依赖,仍然是深度学习技术应用中的一大挑战。本文利用图像级标签,提出了两个用于GA病变分割
波达方向(DOA)估计问题,作为阵列信号处理的一大重要组成部分,在雷达、声呐、医疗、通信等领域都有着广泛的应用。稀疏参数化方法(Sparse and Parametric Approach,SPA),作为DOA估计领域无网格稀疏方法的代表之一,在国内外都有着很高的关注度。但在实验中我们发现,在大快拍的情形下,SPA往往会低估相干信源的功率。此外,在低信噪比的环境下,SPA还可能会将一个真实信源估计
近年来,计算机视觉领域中场景解析的重要性随着硬件设备的发展越来越突出,人们十分渴望通过强大的算力支持从图像中获取足够多的语义信息,语义分割作为场景解析的基础,也被越来越多研究人员重视。而设计一个具有实时性的语义分割模型更是一项具有挑战性的任务,它需要同时考虑分割精度和推理速度。通过捕获不同级别的上下文信息对图像进行实时语义分割,主要工作和研究内容如下:(1)提出了双上下文网络。它包含两个独立的子网