【摘 要】
:
在语音处理的时候,常常会遇到多人同时说话,声音混合在一起的情况。根据有无混音,混合方式可分为瞬时混合和带混音混合。这些混合的声音会降低语音处理的效率和准确率。因此,人们希望能有效且快速地从混合的声音中提取出干净的声音。随着(深度)神经网络技术的快速发展和完善,语音分离领域涌现出很多基于(深度)神经网络的优秀算法。这些方法可以分为三大类:深度聚类、语义分割模型和“编码器-分离器-解码器”架构。通过分
论文部分内容阅读
在语音处理的时候,常常会遇到多人同时说话,声音混合在一起的情况。根据有无混音,混合方式可分为瞬时混合和带混音混合。这些混合的声音会降低语音处理的效率和准确率。因此,人们希望能有效且快速地从混合的声音中提取出干净的声音。随着(深度)神经网络技术的快速发展和完善,语音分离领域涌现出很多基于(深度)神经网络的优秀算法。这些方法可以分为三大类:深度聚类、语义分割模型和“编码器-分离器-解码器”架构。通过分析,本文发现这三类模型能抽象成参考信号辅助分离模型。基于这个抽象模型,本文重点研究单通道带混音混合信号的分离。具体地,本文主要贡献包括以下几点。首先,改进了混合数据-干净数据对生成方法。目前带混音混合的开源数据集寥寥无几。常用的生成方法是冲击响应与干净信号卷积。本文在前人的基础上,细化了冲击响应生成方法,并针对带混音混合信号的特点,改进数据对的生成方法。其次,基于参考信号辅助分离的方案,设计神经网络,实现生成参考信号和语音分离两个子目标。参考信号需要无混音并且能表现干净信号的主要特征。根据这些需求,本文在充分考虑带混音混合数据特点的基础上,兼顾任务复杂度,模型大小和运行速度等,提出隔四采样的预处理方案和消除混音,分离混合两个相辅相成的子网络。针对参考信号辅助的语音分离任务,本文提出采样恢复网络,能充分利用参考信号提供的先验和挖掘带混音混合信号的隐藏信息。在损失函数的选择上,为了网络能更好地学习高频部分,抵消下采样的负面影响,提升分离音质,本文给采样恢复网络的损失函数加入高通滤波器,隐式地赋予高频成分大权重。在网络训练阶段,根据每个任务特点,设计专门的训练策略,最大化子网络和组合网络的效率。最后,通过实验验证提出方法的优越性。对比本文提出网络和前人提出的网络:SVoice,Su DORMRFNet,LSTMTas Net,Conv Tas Net,DPRNNTas Net,DPTNet。带混音混合信号由干净信号和冲击响应卷积生成,其中,干净语音信号来自Librispeech数据集;冲击响应分别来自FUSS数据集和虚拟环境下生成的数据集。对比推断速度,本文网络的推断速度更快。对比分离效果,在输入信号SI-SNR较大的情况下,本文提出网络表现略优;在输入信号SI-SNR较小的情况下,本文网络有较大优势。
其他文献
目的 探讨精益管理在手术室低值耗材管理中的应用效果。方法 选取2019年10月至2020年5月广州中医药大学深圳医院(福田)的低值耗材数据作为对照组,2020年6月至2021年1月的数据作为观察组。对照组实施常规管理方式管理低值耗材,观察组运用精益管理理论。比较两组的低值耗材周转率、低值耗材积压支出、巡回护士出手术间取耗材次数及护理人员对低值耗材使用的满意度。结果 观察组的手术室低值耗材周转率高于
目的 探讨麻醉护士运用精益管理理念在心脏体外循环手术中的应用效果。方法选取2020年1月—2022年1月于医院行心脏体外循环手术的患者128例,按照组间基本特征均衡可比的原则分为对照组和观察组,各64例。对照组采取传统麻醉护理措施,观察组在对照组基础上采取精益管理理念指导麻醉护理。观察至患者出院,比较两组术后康复情况、并发症发生率和满意度。结果 观察组首次排气时间(24.35±3.42 h)、首次
乳腺癌是全世界妇女中发病率最高的恶性肿瘤,严重威胁着妇女的身心健康。随着乳腺癌筛查和治疗技术的进步,乳腺癌患者的术后生存率稳步提高,对乳腺癌术后个体病程预测的预后模型研究变得越来越重要。然而,自20世纪50年代以来,本文没有考虑将生存过程作为一个随机过程进行建模,从数值拟合模型到机器学习方法。近年来,本文开始将神经网络引入生存分析,但在数值方法中仍然依赖对数线性风险假设或使用预先确定的风险分布。回
随着互联网的发展,信息技术的日新月异,互联网数据也越具有多样性,比如图像、音频和视频等。3D数据作为真实感知场景的一种经典对象模型表示方式,已被应用于多个领域,例如自动驾驶、机器人抓取、遥感等。点云数据是大数据时代的一种新型媒体数据,具有非常统一的结构,可以避免组合的不规则性和复杂性,非常适合表示三维模型。虽然通过激光雷达技术可以快速获得物体表面的三维点云数据。然而,由于扫描视角的局限性以及物体间
机器嗅觉感知通过智能算法实现气味的有效感知,这种感知模拟人类对气味的评价手段。气味的评价包括了香型、气味强度、留香长度等多个维度。机器嗅觉感知是人工智能的重要分支,其仍有大量的内容需要深入挖掘。其中,物质气味的香型是机器嗅觉感知中的一个关键属性。个体的香型描述主观差异性大,主要体现在个体文化背景、认知、身体状况、情绪变化等。因此,至今缺乏一种规范的、统一的香型表示方法。本文从信息、数学、化学角度研
阵列信号处理中,波达方向(direction-of-arrival,DOA)估计是一个重要的研究方向,在众多领域诸如无线通信、雷达、声纳、导航、生物医学信号检测等有极为广阔的应用前景。近30年来,DOA估计算法研究取得极大的发展,对精度和分辨率要求也越来越高,然而绝大多数高精度超分辨率的DOA估计算法是以获知信号源个数为必要条件的。因此,信号源个数估计对后续的DOA估计十分关键。目前信号源个数估计
随着社会生活水平的提高,皮革是日常生活和生产中常见的消费品之一,皮革的应用领域非常广泛,涵盖了制革、制鞋、皮衣、皮件、毛皮及其制品等主体行业,以及皮革化工、皮革五金、皮革机械、辅料等配套行业。但皮革制品在生产制造过程中容易产生瑕疵或缺陷,使得其外观受损影响销售,不利于皮革行业的发展,因此需要检测整个生产过程的皮革,将有瑕疵的皮革筛选出来。传统的皮革瑕疵检测主要包含人工检测和基于机器视觉的检测,但是
随着数字化技术的发展,人体其他感官如视觉、听觉的研究日趋成熟,人们早已实现“千里眼”与“顺风耳”。然而,嗅觉的发展还处于探索阶段,离“万里飘香”依旧任重道远。气味感知是用来描述嗅觉的一种方式,它利用气味描述符对分子气味进行描述来表示嗅感。由于气味组成的复杂性,人们始终没能在气味分子的性质和气味感知之间建立良好的映射关系。本文尝试从气味分子物化特征的角度出发,不仅包括提取分子描述符信息,更是首次通过
随着技术的进步与发展,未来智能新兴技术带来的各个层面更好的实时与交互等服务务必对如今通信系统的频谱效率(Spectrum Efficiency,SE)和系统可靠性有更高的要求。超奈奎斯特(Faster-Than-Nyquist,FTN)通过压缩成型脉冲之间的时间间隔的方式来增加符号传输速率进而提高SE,但采用非正交传输的方式不可避免的会引入码间干扰(Inter-Symbol Interferenc
道路裂缝是道路在外部环境作用下产生的一种病害,在不加修复的情况下可能会导致较为严重的安全事故。道路裂缝检测即通过一定的方法与手段判断道路中是否产生裂缝的一种检测技术。随着人工智能的急速发展,以深度学习为代表的各类人工智能算法开始应用在道路裂缝检测领域中。本文介绍一种基于通道注意力机制与密集连接机制的道路裂缝识别网络Dense Net-SE及其变体Dense Net-NSE,并将该方法与现存技术进行