基于字典学习和深度神经网络的单通道语音分离技术研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:wodemeng111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在实际生活场景中,往往会有背景声音的存在,语音分离的目的主要是将目标说话人的语音从被污染的语音中重构出来,降低或去除干扰的影响,增强人耳对混合语音的感知以及混合语音的可懂度。本文主要研究单通道语音分离,即如何在一路观测信号中将目标语音与干扰语音分离或者如何将干扰信号的影响降到最低。本文以字典学习和深度神经网络为基础,对单通道语音分离进行分析和研究,字典学习利用字典原子线性表示语音信号的特征,而深度神经网络具有优异的非线性学习能力。基于字典学习的单通道语音增强方法对去除噪声是非常有用的,但在对两个相似信号分离时具有局限性。因此,本文将字典学习和深度神经网络相结合,并提出构建两阶段的语音分离系统,该系统包括混合语音信号的分离和估计信号的增强。本文的主要研究内容和创新点如下:(1)概述了语音分离研究的背景、意义和国内外研究现状。描述了几种语音信号的混合方式,介绍了常用的训练目标和声学特征。阐述了稀疏表示的重要性和字典学习的训练过程,分析了深度神经网络的基本原理。(2)由于基于传统字典学习方法获得的联合字典中子字典间的差异性不足,使得语音信号在联合字典表示时会出现“交叉投影”现象,导致基于传统联合字典实现语音分离时系统性能不佳。针对该问题,本文提出了基于加强约束字典学习的单通道语音分离方法,该算法使用加强约束的优化函数来增强对字典学习的约束,该约束函数分为三部分,第一部分抑制重构信号和目标信号的误差,同时约束干净信号在对应子字典上的投影,第二部分约束干净信号在联合字典上的误差,第三部分抑制干净信号在其他字典上的投影以及,并限制字典间的原子相关性。从实验结果来看,与基于传统联合字典实现语音分离方法相比,该算法提高了语音分离系统性能。(3)针对使用字典学习方法对两个相似语音信号实现分离时效果不佳的问题,本文提出了基于字典学习和深度神经网络结合的单通道语音分离方法。该方法通过字典学习重构初步估计信号,再对该信号基于深度神经网络进行增强使其更接近目标信号。首先利用基于字典学习的方法实现语音与语音的分离,重构得到初步估计信号,然后利用映射能力强的深度神经网络实现语音与交叉投影残余的分离,去除交叉投影残余,得到精细估计信号。与基于联合字典实现语音分离方法相比,该方法进一步提升了相似信号分离的准确性。(4)为了进一步提高基于双输出DNN的语音分离性能,本文提出了基于两阶段深度神经网络的单通道语音分离方法,首先使用DNN实现语音分离得到初步估计信号,然后使用DNN进行增强来缩小初步估计信号与目标信号的误差,从而得到精细估计信号。此外,针对两阶段DNN不同的任务目标选择不同的损失函数,第一阶段在约束训练目标的基础上,增加了对信号幅度谱的约束,并且挖掘了信号之间的联合关系,第二阶段同时约束训练目标和信号幅度谱。与传统一阶段深度神经网络的单通道语音分离方法相比,实验验证了该算法有效提升了语音分离的性能,提高了分离信号的准确性。
其他文献
传统光缆配线房中,光缆数量巨大且常年累积,致使光缆线路杂乱,这不仅造成光缆资源浪费,也大大影响了配线房中的线路管理。目前,大部分的配线房仍旧采用人工拽拉的方式对光缆线路进行排查和整理,费时费力。此外,一些新型寻纤设备虽解决了人工成本高、维修时间长的问题,但大都需要中断光缆通讯业务,亦或需要反复弯曲光缆,极易造成光缆损坏,这些都是运营商所不能接受的。本文提出了一种既不中断通信业务又不损坏光缆的,基于
学位
随着全球天文界不断取得重大发现,尤其是射电天文屡次获得诺贝尔奖,各国科学界对射电天文的关注度逐年上升,继中国的500米口径射电望远镜FAST吸引了全球的目光,2021年6月中国正式加入平方公里阵列(SKA)天文台,射电天文望远镜作为关键设备近年来发展迅猛,DVA-C天线是中国为SKA设计的第一台样机天线,本文针对SKA天线的需求,对此射电天文天线的伺服系统设计、仿真、电磁兼容性、指向修正和测试等方
学位
自动测试软件已大规模运用于装备生产过程中,提高了测试效率,统一了测试标准;随着装备更新迭代越来越快,各种型号装备派生越来越多,而其测试项目大同小异,本文提出了一种基于CSCI的自动测试系统开发与设计方法,通过模块化设计,采用搭积木式的开发方法,降低开发时间,具备良好的通用性和可拓展性,采用该方法,可快速进行软件二次开发,并快速应用于不同装备类似测试项目的测试。
期刊
近年来,热电材料因具有独特的热电转换特性而被人们广泛关注。热电材料的性能可以通过无量纲热电优值来表征。过渡金属五碲化物由于超低的晶格热导率引起人们的兴趣,而晶格热导率与声子振动有关。但是,目前关于过渡金属五碲化物的热电声子领域的研究非常有限。基于这种情况,本论文重点利用变温拉曼技术研究单晶ZrTe5和HfTe5的固有声子非谐效应,同时利用第一性原理计算晶格热导率,以下是本文的主要成果:1、首先利用
学位
无线通信中单输入单输出(Single Input Single Output,SISO)的正交频分复用(Orthogonal Frequency Division Multiplexing,OFDM)系统和大规模多输入多输出(Multiple Input Multiple Output,MIMO)的OFDM系统接收机的性能极大程度上取决于信号检测。当前传统信号检测方法在复杂度和误码率性能之间难以取
学位
随着互联网、云计算和大数据等新一代信息技术的发展,网络结构变得越来越复杂,传统基于边界的网络安全模型已无法应对新网络下的威胁,零信任网络应运而生。零信任网络安全理念是“始终不相信,处处要验证”,网络中任何访问主体在访问时都不予以信任,并通过动态访问控制机制进行持续的验证和评估,其对访问控制提出了新的挑战。另外,身份管理是零信任网络的基础,目前网络中不同体系结构的身份管理系统协同并存,海量、跨域和多
学位
在光通信系统中,为了使光学系统的稳定性得到保证,避免反射光对系统中器件工作的影响,设置非互易性传输的光器件是非常必要的。与传统滤波器相比,光子晶体滤波器具有尺寸小、能耗低、易于集成等特点,因此光子晶体滤波器的设计与研究在光通信中有很大的应用价值。本文基于光子晶体模态耦合理论,在二维完美光子晶体中通过引入不同缺陷结构的方式设计波导、谐振腔结构,利用二者各自局域的模态之间的匹配性,实现非互易滤波功能。
学位
谷自由度可以类比于自旋和电荷自由度来作为信息载体实现信息编码和存储。操纵谷自由度的关键是实现谷极化。本征谷极化材料为谷电子的发展提供了新的平台。目前已知谷极化材料数量有限,寻找具有较大谷极化材料可以给谷电子学器件提供更多的选择机会。在这项工作中,我们发现单层Gd X2(X=Br,Cl)是铁谷材料,单层Gd Br2和单层Gd Cl2的谷极化值分别为79 me V和35 me V。由于单层Gd X2(
学位
随着智能手机,平板电脑和其他物联网(IoT)设备的激增,基于位置的服务(LBS)已变得越来越流行,并开始塑造我们使用互联网的方式,在社会生活中发挥着极其重要的作用。这也使得通过使用移动电话、GPS设备和带有地理标记的社交媒体大规模地收集用户的位置数据的现象越来越普遍,海量用户位置数据被存储在云端服务器。大量的位置数据含着极大的学术价值和商业价值,但是这也给用户带来了隐私泄露的风险。现有的研究主要集
学位
口语理解任务主要包括领域识别、意图识别和语义槽填充三个子任务,因而有关口语理解的研究可分为仅考虑单个子任务的粗略口语理解和联合多个子任务的精细化口语理解。综合以上分析,从口语理解两个角度和应用角度出发进行研究,主要工作如下:(1)针对口语交流中存在对话短易造成文本语义稀疏的问题,以及对话时的随意性会导致意图模糊不清的问题,提出一种融合实体信息和时序特征的意图识别模型。通过识别对话中实体信息并加入到
学位