【摘 要】
:
声音信号是人类生活中重要的信息来源,声音事件检测旨在对生活中的声音事件进行识别分类,由此判断可能发生的事件。在声事件检测过程中,不同的声音事件通常会发生重叠,显然这种情况更加符合实际场景,重叠声事件检测在安全监控、智能交通、智能家居和智慧城市建设等领域具有广泛的应用前景。目前,重叠声事件检测算法主要为基于多层神经网络的分类算法,但这些分类算法在处理重叠声事件的过程中会存在很多问题。首先,重叠音频数
【基金项目】
:
广西科技基地和人才专项项目(桂科 AD20159018); 广西自然科学基金面上项目(No.2020GXNSFAA159004);
论文部分内容阅读
声音信号是人类生活中重要的信息来源,声音事件检测旨在对生活中的声音事件进行识别分类,由此判断可能发生的事件。在声事件检测过程中,不同的声音事件通常会发生重叠,显然这种情况更加符合实际场景,重叠声事件检测在安全监控、智能交通、智能家居和智慧城市建设等领域具有广泛的应用前景。目前,重叠声事件检测算法主要为基于多层神经网络的分类算法,但这些分类算法在处理重叠声事件的过程中会存在很多问题。首先,重叠音频数量以及重叠程度未知,导致模型对声事件空间位置信息建模能力较差;其次,对于单一的声学特征,携带声音信息少,很难完整描述声音事件的全部特征;最后,特征信息经过卷积神经网络后出现大量信息丢失的问题,导致模型不能准确定位声音事件的开始时刻和结束时刻,而对于常用的卷积循环神经网络模型,其结构复杂,参数较多,导致系统实时性较差。本文针对上述问题,进行以下工作。(1)针对声事件重叠程度未知等问题,使用胶囊网络(Caps Net)对卷积神经网络模型进行改进,用胶囊向量来代替卷积神经网络中的标量神经元作为基本表征单元,通过胶囊向量对声音事件进行多尺度建模,可以保留更多声事件的位置信息。针对模型复杂,参数较多等问题,构建了深度可分离胶囊网络(DSC-Caps Net)检测模型,在保证性能的同时,极大简化模型。最后在公共数据集上进行了实验分析,结果表明所提出的DSC-Caps Net检测系统比基线系统性能提升了12%左右。(2)针对单一声学特征携带特征信息不足等问题,本文将不同种类的特征进行聚合,使用融合特征作为输入特征,并通过大量实验探索不同的特征聚合所带来的性能提升。不同的声学特征可以从不同角度描述声音事件,使其区分度更加明显,从而提升模型的识别性能,并搭建了基于卷积循环神经网络的基线模型进行了对比实验。(3)针对卷积神经网络特征信息丢失以及无法为检测过程中引入上下文信息等问题,又搭建了Caps Net-RNN重叠声事件检测模型,通过胶囊网络中的胶囊向量克服卷积神经网络姿态信息丢失的问题,最后通过循环神经网络为检测过程中引入上下文信息,为声音事件的起止位置提供更准确的预测。从实验结果中可以得到,该模型对比基线模型,整体性能提升了15%左右。最后在校园中搭建了实时异常声监控系统,将所提出的两种重叠声事件检测算法应用到监控系统中,验证了所提出算法的性能,并解决了户外电源供电不足等实际工程问题,最后在实际场景下进行了实验,验证了所提出算法的性能。
其他文献
建筑物作为人类活动的重要场所,其信息是了解城市发展的重要凭据。遥感卫星能够获取大范围、高实时性的地表观测数据,尤其是高分辨率遥感影像可清晰的显示城市空间地物要素,有助于掌握城市的建筑物现状规模布局。从高分辨率遥感影像中准确提取建筑物在建筑普查、违章建筑执法、城市发展规划、高精度地图更新以及地震灾害评估等方面具有实质的应用价值。高分辨率遥感影像城市场景下建筑光谱、形状纹理、尺度差异大,且存在相似地物
本文介绍了南宁市富硒土壤分布、农业基础及富硒农业发展的现状。同时,针对富硒农业发展不平衡、规模总量小、人才供需矛盾、市场普及率、品牌建设等问题进行了分析,提出了引导产业集群化、补齐人才短板、加强消费者教育和政企协联动等发展对策。为南宁市推动富硒农业发展提供一定的参考。
国家财政部在2018年相继颁布了700系列管理会计指引,将风险清单法列为管理会计工具方法。风险清单法将公司风险管理以表格的形式展现出来,并与会计的计量属性相结合,以定性+定量的方式进行风险管理。通过对风险清单法的编制开展研究,分析其应用程序步骤,为风险清单法在管理会计中的应用提供支持。
视频处理一直是计算机视觉领域活跃的研究方向。其中,基于视频的人脸识别在该领域引起了广泛关注。视频比图像多了一个时间维度,且对人脸识别有以下不利因素:模糊、遮挡、光线变化,甚至是镜头远近的影响,这导致个别视频帧质量过于低下。且由于人脸视频较长,前几帧与后几帧的面部姿态、面部大小等变化较大,往往生成不利于特征提取及融合的噪声。如何从视频中提取利于预测的特征表示尤为重要。当视频序列长度较短时,多尺度特征
[目的]以新能源为主体的新型电力系统对储能的需求不断增加,液化空气储能是一种新兴的长时间、大容量物理储能方法,具有广泛的应用前景。文章旨在探究液化空气储能的热力学原理以及关键参数对储能效率的影响规律。[方法]建立了液化空气储能三种基本循环:分离式循环、冷能回收循环、冷能热能回收循环的热力学模型,分析了冷能回收、热能回收、高压压力、释能压力等关键参数对液化率和循环效率的影响。[结果]结果表明液化率与
位置服务(Location based service,LBS)相关技术的快速发展极大的推进了智慧城市的建设进程,随着机场、高铁站、购物中心等大型建筑综合体的内部空间日益庞大和复杂,室内定位导航、路径规划、虚拟现实等应用对室内空间地图位置服务产生了迫切需求。针对巨大的室内位置与地图服务需求,同步定位与建图技术(Simultaneous Localization and Mapping,SLAM)应
随着合成孔径雷达(SAR)成像任务量地日益增加,传统的单台计算机串行成像存在计算能力和扩展性不足的问题,难以满足SAR快速成像的需求。分布并行计算是将普通配置的计算机组合成一个集群,能够极大地提升计算机的计算能力和扩展性。此外,在集群中Spark框架相较于MapReduce框架,Map转换时不需要落盘操作,可以直接缓存在内存中,提升了执行效率,这为大场景下的SAR成像提供了一种高效可行的技术途径。
加强专业课程教学与思政教育的深度融合是落实高校立德树人的主要途径。该文阐释在社会主义新时期高等教育中广泛深入开展课程思政的必要性,结合航空制造类专业分析当前高等院校工科专业课程思政开展的现状及不足。通过飞行器制造工程专业课程的教学实践发现,相对于传统教学设计,在专业课程教学中深度融合思政元素对于促进学生专业知识的掌握,学生“三观”的塑造及科学思维能力的养成具有明显的增效作用。
目的 研究同型半胱氨酸(Hcy)和叶酸代谢相关酶基因在妊娠期高血压疾病(HDP)中的价值。方法 将2021年11月至2022年8月自贡市妇幼保健院收治的65例HDP患者作为HDP组,选择同期来该院进行孕期健康体检的80例健康妊娠孕妇作为对照组。比较两组患者Hcy、叶酸代谢相关酶基因检测、胎盘生长因子(PLGF)、肝功能检测、肾功能检测、24小时尿蛋白定量(24hUP)、凝血功能检测、血栓弹力图、血
随着民用汽车保有量呈现大幅上升的态势,城市环境下的交通状况日益复杂,由此产生的交通拥堵问题愈发明显,C-V2X(Cellular Vehicle-to-Everything)下的车联网(Internet-of-Vehicles,Io V)为解决城市交通问题奠定了基础。在城市交通拥堵的环境下,基于D2D(Device-to-Device)-V2V(Vehicle-to-Vehicle)通信技术,采用