基于生成对抗网络的声音场景重建方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:qimao1986
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
声音场景重建是一种根据音频信号中声音事件特征重建场景图像的新型信息处理方法,在场景感知、安全侦察、多媒体分析、电影场景制作等方面具有广泛的应用价值。目前用于声音场景重建的生成对抗网络理论依然处于初期发展阶段,模型训练过程稳定性欠佳,并且重建图像的分辨率与质量也难以满足要求。为此,本文重点围绕基于生成对抗网络的声音场景重建理论与实现方法,针对注意力机制、谱归一化、UNet网络、残差网络及金字塔网络等关键环节开展了重点研究。主要工作如下:(1)建立了条件生成对抗网络模型,采用对数梅尔谱图与卷积神经网络相结合的方法提取声音特征,作为模型的条件信息,通过仿真实验对四种损失函数模型性能开展分析,探究了损失函数对训练稳定性和重建图像质量的影响,并提出通过分类准确率这一指标对重建图像与声音信号的相关性进行评估。(2)搭建了基于注意力、谱归一化方法的条件生成对抗网络改进模型。该模型在网络结构中加入了注意力层,同时对生成网络和判别网络的卷积核参数矩阵进行谱范数归一化处理。通过仿真实验表明,注意力层的加入使得改进模型重建出的64×64分辨率图像质量更高,谱归一化处理使得模型训练过程相对更稳定,在测试集上,改进模型的重建图像分类准确率提高了3.9个百分点。(3)搭建了具有两个生成器与两个判别器的级联条件生成对抗网络模型,该模型的生成器采用UNet网络,判别器采用Patch GAN,辅助分类器采用残差网络。实验表明,改进后的模型不仅生成了128×128的高分辨率声音场景图像,而且生成图像质量更高。综上,本文在条件生成对抗网络基础上搭建的改进模型,有效改善了声音场景重建图像的分辨率和质量,仿真实验结果表明改进后的模型训练过程更稳定,图像分类准确率也得到了提升,为生成对抗网络在声音场景重建任务里的应用提供了重要参考和实验依据。
其他文献
视觉语义理解是计算机视觉中一个具有挑战性的课题。而场景图是图像语义信息的抽象表示,它是以图像中目标为顶点、目标之间的关系为边的图形结构。论文研究图像中目标之间的关系,围绕场景图生成任务,首先检测图像中所有的目标,然后识别它们之间的关系,最后将这些信息进行结构化表示以生成图像的场景图。场景图可以为图像理解提供丰富的语义解释,并且为下游的高级视觉语义任务提供理论与技术支撑,对视觉语义理解有着重大的意义
近年来,辅助生殖技术不断成熟,研究表明囊胚比卵裂期胚胎更加符合妊娠生理,移植一个高质量的囊胚,可以在保证顺利妊娠的同时,有效降低多胎妊娠的可能性,从而避免其并发症威胁母婴健康。因此,精确评估囊胚期胚胎形态学参数尤其重要。本文针对囊胚期胚胎数据稀疏的特点,设计面向数据扩充的图像预处理算法,搭建胚胎主体分割模型和细粒度特征识别模型,完成囊胚期形态学参数特征地快速准确识别,最终实现人性化的可视化特征识别
在我们的日常生活中,随处可见各类物联网设备,如何管理这些设备是物联网大规模应用中的一项重大挑战,解决办法之一是在这些设备上安装定位系统,以便实时了解设备的位置。此外,在物联网传感设备提供的应用中,大部分都是基于位置的服务,如果不知道设备的地理位置,那么传感器的数据将毫无意义。大多数基于位置的应用程序,通常会使用全球定位系统GPS来进行定位。然而,使用GPS带来的能耗非常高,并不适用于物联网中低功耗
随着互联网的发展,网络上出现越来越多的文本,人们迫切需要通过文本关键词快速获取文本的主要内容,以判断文本是否是自己感兴趣的。同时文本关键词提取作为自然语言处理(NLP)领域一项基本研究,其算法的效果直接影响到许多下游任务的效果。因此文本关键词提取算法得到了广泛的关注与研究。基于图的文本关键词提取算法不仅能通过词语之间的关系来衡量词语的重要性而且该类方法为无监督的方法,因此被广泛研究。然而该类方法在
近年来,由于民航乘务人员和旅客需求的不断更新,电子技术在民航客舱环境下的应用也在不断扩大和上升。民航客舱环境下,为了保证应用间通信的实时性和可靠性,对系统提出了非常高的要求。为了满足这样的实时应用程序的需求,对象管理组织通过发表DDS规范,提出了一个以数据为中心的发布/订阅通信模型,并使用这样的模型来进行数据分发。然而,目前国外诸如RTI DDS等应用于航空客舱环境的中间件大多为商用产品,开源产品
动作识别任务拥有着很长的历史,近年来随着深度学习的发展,更是取得了长足的进步。但以往的动作识别任务都是基于RGB数据的,只是最近以微软的Kinect camera为代表的深度传感器的逐渐普及,才出现了基于骨骼点的动作识别方法。3D骨骼点数据相较于RGB数据而言,排除了人体形态、所穿衣着和光照等冗余信息,却纯粹保留了“人体动作”本身的关键信息,这使得基于骨骼点的动作识别任务吸引了越来越多研究者的注意
当前,集成电路不断发展,现场可编程门阵列(Field Programmable Gate Array,FPGA)得到了广泛应用,但传统的密钥存储方法容易遭到攻击,对FPGA的安全认证问题提出了新的挑战。物理不可克隆函数(Physical Unclonable Function,PUF)作为一种有前途的解决方案,能够为FPGA生成安全可靠的物理指纹。环形振荡器(Ring Oscillator,RO)
基于单目图像或者视频序列的深度估计算法,无需昂贵的深度传感器设备就可以得到场景的深度信息,受到了学术界和工业界日益增长的关注。高精度的深度估计在很多工业场景中具有很强的应用价值,包括机器人感知、导航、规划以及无人驾驶和虚拟现实娱乐领域。现有的基于监督学习的单目深度估计方法,通常利用单一视角的图像数据作为输入,直接预测图像中每个像素对应的深度值,需要大量的深度标注数据作为监督信号,而这类数据通常需要
教育治理是深化我国教育领域综合改革的重要举措,现已成为教育领域研究者的研究热点。文章以2005-2020年中国知网收录、CSSCI来源期刊刊载的369篇教育治理研究论文为分析对象,运用关键词词频与聚类分析等方法剖析教育治理研究的“知识地图”。整体而言,我国教育治理研究成绩斐然,但教育治理理论与实践研究尚不能满足我国教育现代化建设的需求。未来,教育治理在研究逻辑上,要立足于中国特色国家治理体系和治理
量子力学是现代物理学的两大基本支柱之一,是描述微观世界系统的理论。Schr(?)dinger方程是量子力学的核心方程,是将波动方程与物质波的概念相互结合所建立的非相对论的二阶偏微分方程。Schr(?)dinger方程显示了微观系统中粒子的状态随着时间变化的规律,每个微观系统都有一个相对应的Schr(?)dinger方程(组),绝大部分微观系统导出的Schr(?)dinger方程组都是耦合的,因此在