【摘 要】
:
语音增强作为语音处理任务的前端处理技术,通过去除含噪语音中的背景噪声,尽量提升语音纯净度,达到提高语音质量和可懂度的目的。在过去的研究中,传统的语音增强算法基于某些先验假设,在低信噪比、非平稳噪声环境下会出现较严重的语音失真。为了解决上述问题,近年来基于深度学习的语音增强算法开始兴起,其能够突破先前传统算法的某些限制,对于不同条件下的语音增强任务具有更好的适应能力。其中,U-Net网络能够保证去噪
论文部分内容阅读
语音增强作为语音处理任务的前端处理技术,通过去除含噪语音中的背景噪声,尽量提升语音纯净度,达到提高语音质量和可懂度的目的。在过去的研究中,传统的语音增强算法基于某些先验假设,在低信噪比、非平稳噪声环境下会出现较严重的语音失真。为了解决上述问题,近年来基于深度学习的语音增强算法开始兴起,其能够突破先前传统算法的某些限制,对于不同条件下的语音增强任务具有更好的适应能力。其中,U-Net网络能够保证去噪效果的前提下大幅度减少模型的参数量,得到了研究人员的广泛关注。然而,由于采样和卷积运算的感受域有限,不利于增强语音的恢复,因此很难对整段语音进行建模,限制了模型的进一步发展。针对上述问题,本文首先提出了一种改进的U-Net网络—ADC-U-Net。其中,为了扩大卷积运算的感受域,尽可能的获取全局语义信息,本文设计了一种新的线性混合空洞卷积块,具体做法是将普通卷积与空洞卷积先后经过归一化和非线性激活处理后再进行线性联合运算。这样既减小由普通卷积带来的信息损失,增大了感受野,获得多尺度的特征信息,又避免了单独使用空洞卷积所造成的语音局部和起止特征信息丢失的问题,进而改善语音失真。此外,为解决语音细节特征在网络最深层进行解码时丢失导致语音质量和可懂度下降的问题,将一种新的双路复合注意力机制应用到U-Net网络中,具体做法是将编码区域和解码深层部分的特征输出进行二次融合,提取了含噪语音更多的上下文信息,为解码模块提供了更深层次和更丰富的语音细节特征信息,有利于增强语音的恢复。然而,本文在实验中发现,随着网络层数加深,可能会出现梯度消失错过最优点的问题,同时卷积操作增多会导致前后卷积层之间的联系较弱。针对这一问题,本文进而提出了一种基于短时多尺度密集残差模块的端到端语音增强模型ADS-U-Net。短时多尺度密集残差模块通过不同类型的卷积操作和快捷连接的运算,不仅使网络的拟合能力更强,不易错过最优结果,而且为各个卷积层之间建立了更为紧密的联系,使上下文特征信息间的相关性加强,网络能够获取到更多的语音细节信息,有利于最终进一步提升语音的质量和对噪声的抑制能力。接着,本文采用多个主客观指标对增强语音的质量和可懂度进行了评价。实验结果显示本文所提算法在噪声抑制能力、泛化性等方面均表现出良好的性能,与基线U-Net网络及其他网络模型相比,表现出更好的语音质量和可懂度,证明所提网络有一定的优势。最后,本文探究了语音增强中的可视化方法,并通过网络模型的可视化分析了所提语音增强模型的不足之处,为后续研究提供了方向。
其他文献
滤波器组多载波偏移正交幅度调制(Filter Bank Multi-Carrier Offset Quadrature Amplitude Modulation,FBMC-OQAM)信号具有抗光纤色散能力强、频谱利用率高、带外功率泄漏低等特点,在移动前传网与无源光网络等应用场景中极具优势。但存在峰均功率比(Peak-to-Average Power Ratio,PAPR)过高的问题,导致系统整体性
大规模多输入多输出(Multiple-Input Multiple-Output,MIMO)技术作为第五代(The Fifth Generation,5G)移动通信的关键技术之一,具备了很多传统MIMO技术无法替代的优势,但也面临着很多挑战。首先,大规模MIMO系统的性能优势是建立在基站(Base Station,BS)可以准确获取信道状态信息(Channel State Information,
倦怠情绪主要研究于职业领域中。近年来,研究者们发现倦怠情绪也存在于学生的学习中。在我国新课程改革和高考的压力下,一些高中生对英语学习自信心不足,甚至产生抵触和冷漠的情绪。了解学生在学习倦怠和自我效能感方面的情况及其与外语成绩的关系成为当前相关研究的重要问题。本研究试图通过探究高中生英语学习倦怠、自我效能感和英语成绩的关系,为相关领域的研究补充数据,并为我国的外语教学提供可行的建议。本研究主要研究问
伴随着植入式生物医疗设备的兴起,更多植入式设备将会被用于人体来维持和改善人们的生活,体内联网的概念由此而生,然而植入式设备的续航问题限制了体内联网的应用与发展。近年来,伴随着对无线能量传输技术的研究,越来越多的人尝试将无线能量传输技术用于给植入式设备充电来解决植入式设备的续航问题,然而目前的无线能量传输技术主要针对点对点的无线能量传输,难以满足体内联网需要。故而研究并设计出面向无线能量传输的发射天
创新驱动发展的知识经济时代呼唤能够应对变幻、探索未知的高质量的人力资源,对创业教育的人才培养标准提出了更高的要求。“大学生创业素养”的核心在于“价值创造”,创业教育应培养大学生获得面向未来的可持续发展的素养。研究围绕着这一概念,从“构建大学生创业素养评价指标体系”与“大学生创业素养现状调查”两个方面展开研究。首先,通过行为事件访谈法,构建了大学生创业素养评价模型。在此基础上,借鉴相关专业量表,自编
量子通信是近二十年发展起来的新型交叉学科,是量子论和信息论相结合的新的研究领域。在量子通信中,信息通过量子纠缠效应进行传递,本文将常见的量子纠缠态进行组合,研究了若干基于组合信道的远程制备量子态的方法。首先,本文探究了一种基于单中继和最大纠缠Greenberg-Horne-Zeilinger(GHZ)-Bell态组合信道的联合远程量子态制备方法。进一步地,本文还研究了一种基于单中继和非最大纠缠GH
文化创意领域具有高知识性、高附加值性和高融合性等特点,广大的中小微文化创意企业和个人作为其产业主体,面临着传统渠道融资难、融资贵的问题,而众筹为这些主体提供了一种全新的融资模式,也促进了市场资源的有效配置。本文依托文化创意领域的众筹平台摩点网数据,以众筹融资绩效为主要研究目标,系统分析了众筹融资绩效的影响因素及预测方法。本文首先构建了多元回归模型探究众筹融资绩效的影响因素。与历史文献不同的是,本文
研究目的:400m栏是典型的速度-力量+技术主导的周期性体能类项目,隶属于跨越障碍、快速移动的非对称性项目,是田径比赛中难度较大的项目之一,从竞技能力的组成上除了技术和体能之外,对于栏间节奏有极高的要求,对于全程节奏的统计、划分以及节奏与运动表现的关系研究有助于教练员对于节奏的训练指导,为400m栏项目的专项训练提供一定的理论基础,完善400m栏项目的专项训练体系,为提升我国在该项目上的运动水平提
传统调制识别算法主要采用基于似然度或专家特征的分类方法。随着深度学习在计算机视觉等领域迅速发展,研究者开始尝试将其运用在调制识别问题中。然而时至今日,多数基于深度学习的调制识别算法更多的仍只是借用针对计算机视觉所开发的算法架构,并没有针对调制识别问题对核心算法进行创新设计。因此本文结合调制信号的分布特征提出了基于自定义卷积核初始化的深度学习算法。相比于随机初始化卷积核,卷积核自定义初始化引导卷积核
近年来,“教师焦虑”已经成为外语教师发展领域的重要议题。教师焦虑不仅危害教师的身心健康,而且对学生的发展产生显著的负面影响。而对于农村教师,由于农村资源的匮乏,他们更容易产生焦虑。目前的研究多聚焦城市学校的英语教师焦虑,而对农村学校英语教师焦虑的研究却很少。因此,本案例研究探讨了四名农村学校英语教师的焦虑经历及其影响因素。数据来源包括半结构化访谈和案例素材。本研究的主要发现总结如下:首先,四名农村