生成对抗网络的联合训练算法及在语音分离中的应用

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:ahqmchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音作为人机交互效率最佳的方式,是人工智能领域的热点研究对象,但由于受环境等因素的影响,机器接收到的语音信号容易被严重干扰,导致智能设备难以获取准确的语音信息,进而影响人机交互效率。语音分离是语音增强技术的重要分支,该技术主要针对说话人之间的语音干扰,但由于语音干扰不同于噪声干扰,无法对其进行分布近似假设,因而一直以来都是学者们研究的热点。传统的基于信号处理的语音分离方法在分离过程中常丢失部分有用信息,而以大量语音样本为处理对象的深度学习方法,虽依靠其强大的非线性拟合能力提升了分离语音的质量,但随着信噪比降低,目标语音特征被逐渐掩蔽,分离系统性能受限。基于此,本文主要围绕双说话人混合语音在低信噪比(Signal-to-Noise Ratio,SNR)下的性能提升,并从时、频域两个角度进行了深入研究。首先,现有语音分离方法的训练误差大都来源于定义的损失函数,不仅难以全面衡量语音间差异,而且在低SNR下性能不佳。本文提出频域下的生成对抗网络(Generative Adversarial Network,GAN)联合训练算法来学习语音之间的分布差异,充分利用GAN对抗机制,将生成模型和判别模型分别用于学习目标语音和干扰语音的特征信息,并参考时频掩蔽原理,进一步提出基于时频掩蔽的GAN联合训练语音分离系统。在最优λ取值实验中,取值为100附近时性能达到最好,且以时频掩蔽为输出目标能为训练过程提供更多的分离信息,有利于提升低SNR下分离语音的整体质量。然后,由于频域分离方法忽略了相位信息,在前期时频特征提取时也易丢失部分信息。本文进而构建时域下的GAN联合训练语音分离系统,直接以时域波形为训练对象能最大程度保留语音完整性,考虑到时域波形幅值差异较大,提出以非线性sigmoid函数进行归一化处理。结果表明,时域分离系统仍λ=100时性能最优,具有较好的分离性能,但在频谱恢复上要弱于频域分离方法。最后,在同性混合语音和非同源测试语音上的分离结果表明,同性混合语音由于频率相近,分离效果要弱于异性混合语音,而在非同源语音上本文所提方法仍有较好的泛化性能。同时还采集实际的混合语音进行测试,发现异性混合下的分离效果显著,而同性混合下的分离效果欠佳。
其他文献
虚拟试衣能有效增强用户的网络购物体验,准确理解着装人体图像中以人为中心的语义区域,对辅助虚拟试衣起着重要作用。但由于着装人体图像服饰繁多,姿态各异,具有丰富的纹理和复杂的背景,使得准确理解图像变得困难。本文针对着装场景中人体姿态、边缘轮廓、服装配饰的复杂性以及人体部位关节点的遮挡等因素,导致人体解析结果不够精确的问题,结合边缘轮廓、姿态特征和粗解析特征,通过定义的结构损失和人体解析损失的组合函数进
身处互联网浪潮之中,各式各样的信息在日常生活中以爆炸似的速度飞速增长。从大量信息中快速准确获取用户需要的信息日渐成为人们的迫切需求和研究者们关注的热点,因此信息抽取技术应运而生。关系抽取隶属于信息抽取,是其中的一个子任务,人物关系抽取又是其中一个具体的研究方向。新闻文本作为当下人们获取信息的主要来源之一,大多以非结构化或半结构化形式分散于繁杂的互联网资源中,这些文本中可能包含了大量的人物实体及人物
森林结构参数,如树高、冠幅、胸径和树冠体积等,不仅是评估森林生长状态、空间结构及生态功能的重要指标,也是分析全球森林生态系统碳平衡的基础。其中,树高是森林资源调查的重要参数,常常被用于立地质量与树木生长状态评价、树木材积与生物量估计。机载激光雷达(Airborne Light Detection and Ranging,ALiDAR)能够主动发射激光能量脉冲,在一定程度上穿透密集植被冠层,快速获取
随着液晶显示器需求量的与日俱增,显示器的生产效率就显得尤为重要。提高显示器装配线的机械自动化程度可以显著提升显示器的生产效率,同时也可以减少人力成本的投入。液晶显示器在自动化装配过程中的夹紧定位装置伴随整个装配过程,是自动化生产线的重要装置。本文针对显示器自动化装配线设计了一种基于连杆机构的对中定位夹具。首先,在对夹具使用需求分析的基础上,确定了夹具的机构形式;并采用约束优化设计方法对连杆机构的具
脑-机接口(Brain-computer interface,BCI)是通过解码用户神经系统变化意图的变革性人机交互技术,其可以补充、修复、增强,甚至部分替代原有人正常神经功能的活动,在很多领域,其应用前景广阔。情绪研究就是其中的一个热门方向,负性情绪对个体的生活与工作有或多或少的影响。本文在研究情绪调节上,引入了基于功能近红外光谱(functional near infrared spectro
语音端点检测的目的是从语音信号中区分出语音段(有声段)和非语音段(无声段),但是语音信号中往往会伴随着各种噪声,噪声的存在直接影响了端点检测的性能。本文从基于特征参数的语音端点检测方法出发,对噪声环境下的语音端点检测展开研究,具体的研究工作包含如下方面:一、针对基于单特征的语音端点检测方法所用特征在低信噪比环境下鲁棒性不佳的问题,本文将语音信号Gammatone频率倒谱系数(Gammatone F
太阳暗条存在于日冕中,是由低温高密度的等离子体组成。强烈的暗条爆发活动会影响地球磁层,严重时将导致通信设备受损,造成通信中断、航空运输导航失效等。此外,暗条作为太阳大气磁场的示踪,对暗条进行研究有助于探究太阳磁场的结构和演化规律。因此对暗条准确地检测作为相关研究的基础和前提,具有重要的科学意义。针对现有的暗条检测方法存在数据集不准确、检测结果精度不高,弱小暗条错检、漏检等问题,本文首次结合太阳磁图
刀具磨损状态监测技术是先进制造技术中的重要组成部分。刀具磨损的实时监测对于提高产品质量,降低制造成本和提高生产效率具有重要作用。然而,该技术发展至今,仍然不能够真正应用于实际加工中,也未能很好地解决变工况加工条件下精确识别刀具磨损状态的问题。为此,本文通过对车削刀具磨损状态监测技术的研究,建立了基于多特征融合和多数投票法的车削刀具磨损状态识别模型。主要研究内容及结果如下:首先,对刀具磨损状态监测的
脑-机接口是一种变革传统人机交互的技术,其中情绪脑-机接口是一类重要的脑-机交互,可望为情绪的调节、监测或评估提供定量的方法,有潜在的重要应用价值。然而,情绪相关的EEG信号特征提取与识别尚未彻底解决,面临许多挑战,因此,本文基于运动调节情绪的方式,探索合适的情绪诱发实验范式,分别提取情绪相关EEG信号的时域、频域、时-频域和空域的特征,并进行情绪相关EEG信号的特征筛选,从而筛选出与情绪密切相关
随着大数据时代的降临,信息技术发展上升到了一个新的历史阶段,影响着社会生产模式和人们生活的方方面面。智能移动设备、智能家居产品都在不停地生产数据,大量数据中也隐藏着巨大的利益价值。传统数据挖掘算法在大规模数据集上训练模型时,会出现训练效率不高,因此对传统数据挖掘算法的改进变得刻不容缓。支持向量机(Support Vector Machine,SVM)对比其他常用的数据挖掘分类算法,在算法训练过程中