基于深度学习的语音分离算法研究与设计

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gj1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年的发展语音分离技术已经取得了长足进步,目前深度学习的兴起,极大地推动语音分离技术的进一步发展。本文对单通道情况下语音分离算法进行了研究,即从单个麦克风采集到的混合语音中分离出目标人声语音。本文主要研究利用深度学习技术对语音分离算法进行改进,在对当前语音分离算法的建模思想进行深入分析后,主要发现了两点可以进行改进的地方:第一,在人声和噪声分离场景下,多层感知机在处理语音具有强大的特征提取能力,但一般采用固定有限的上下窗口对语音数据进行建模,不仅增加了输入数据的维度,还忽视了语音的时序相关性关系,对混合语音信号中所包含的特征信息利用不够充分;第二,在分离两人同时发声的混合语音时,目前分离算法大多需要同时追踪到混合语音中的两类语音特征,对于人耳来说其实很难同时听清两个人的语音,与常见的人类听觉认知的方式不同,难以设计出有效的分离模型。本文针对上述问题进行研究,提出了相应的解决方案,主要贡献如下:1.深入研究了语音分离算法的建模方式,对不同神经网络结构特性进行了探讨,提出了一种基于深度循环神经网络的人声和噪声分离算法。在使用复合神经网络的基础上,设计实现了一种基于注意力机制的特征帧拼接策略。通过利用注意力机制来提取上下文相关信息,然后加权求和形成特征帧,并与当前输入串联后作为深度循环神经网络的输入特征。这一方法有效捕获了语音信号上下文的时序关联。此外,在模型中还添加了额外的掩膜层对深度循环神经网络的输出施加了约束,提高了估计语音的准确性。通过设计对比实验,验证了模型的有效性,同时发现该算法在未知噪声环境下的性能与对比实验相比具有更强的鲁棒性。2.从听觉感知理论角度着手,针对多说话人场景,设计出了一种具有较强灵活性的说话人信息提取机制,提出了一种基于多层注意力机制的多人语音分离算法。在该模型中引入说话人信息生成声纹特征,并设计多层迭代机制,利用注意力机制将声纹特征与混合语音特征进行相似度计算,得到目标人声的更加清晰的分离语音。实验结果表明,所提出的算法对相对于非特定说话人分离具有更高的分离性能,与相关工作相比在多个语音指标均有普遍提高,并且在更复杂的多人语音混合环境中具有更优异的效果。
其他文献
高中生群体作为国家未来的建设者和接班人,处于人生的重要转折阶段,他们的身心健康以及对成功的追求与渴望影响着国家未来的发展方向。家庭是子女最直接、最具体的成长环境,家庭教养方式直接影响着孩子的行为、态度和情感,已有研究表明,不同类型的教养方式对孩子的影响是不同的,积极的教养方式有利于培养高中生良好的习惯及积极的品质。已有研究发现,自我效能感是实现成就目标的内在动因之一,它在成就行为方面起到一定的作用
“讲好中国故事、传播好中国声音”是习近平总书记为对外传播战略提出的新要求。然而,从整体国际舆论格局来看,中国对外传播综合实力还不强,西方的舆论霸权仍然存在,对外传播效果仍然不理想。本文依据“两级传播理论”,探讨、识别并分析西方社交媒体Facebook上涉华问题意见领袖的类型、特点,有利于把握事件中的传播节点,准确及时地引导公众舆论,避免舆论环境恶化,并为现实问题的解决助力。本文运用社会网络分析法识
本翻译报告的英文原文Service Campaign Manual来源于保时捷中国对各保时捷中心下发的政策文件。为了让各门店一线的销售专员、售后顾问、机修工和客户关系管理部门的人员及时掌握最新规定,保证工作规范性和效率,笔者实习的部门委托笔者翻译其中一份主要涉及售后的政策文件。该翻译文本为服务活动手册,翻译性质为公文翻译。基于公文文本时态多样和句型复杂的特点,笔者结合卡特福德的翻译转换理论,对此次
2017年1月特朗普政府上台后,美国以缩减贸易逆差、重振制造业与保护工人利益为由,不断加大针对中国的贸易保护和制裁力度。同年8月,美国借口“中国不公平贸易行为”对华发起301调查,并于2018年7月至8月分两次对中国共500亿美元商品加征25%关税,致使中美贸易摩擦全面爆发并迅速波及到所有贸易商品,更进一步影响到全球经贸发展以及国民福利水平。经多方共同努力反复协商,两国于2020年1月15日签署了
厥证首见于《内经》,是由气机逆乱,升降失调,阴阳气不相顺接而致。临床表现较复杂,大体可分两类,一是指暴不知人,卒然昏倒,如《素问·厥论》说:“厥或令人腹满,或令人暴
[摘 要]城市化进程的不断推进促进了城市空间艺术的不断革新与发展,在这个信息化的时代,多媒体环境下的设计不再是形式地信息简单呈现,自然的人机交互和良好的用户体验逐步成为城市公共空间的交互设计关注的焦点。数字步道仪应用到城市公共空间能够让人与城市公共空间产生更多的交互性,拉近人与城市空间的距离。  [关键词]数字步道仪;城市公共空间;城市广场  1 数字步道仪概述  在当今信息化的时代,多媒体环境下
随着每年世界银行《全球营商环境报告》的发布,世界各国逐渐重视营商环境的建设,近年来我国营商环境作为新热词受到了广泛关注,各级政府不断出台新政策。近几次政府会议十分关注营商环境的优化,2019年国务院发布《优化营商环境条例》,该条例让营商环境建设达到有法可依的程度。聚焦营商环境优化,了解国内各省(市)营商环境现状,是当今社会重要议题。如今,营商环境已逐渐成为企业进行投资区位选择时的重要参考因素。虽然
随着时代的发展,社会经济与科学技术在不断地高速发展与创新,高校教育的管理也逐渐趋向数字化、信息化及网络化。为了适应时代发展与变化的需求,高校教育管理要进行可持续的
动态特性是影响机床精度的重要因素,材料组合是提高其动态特性的一种有效方法。目前,约束阻尼层夹板结构已广泛应用于汽车、电子产品、机床装备等领域的减振处理。为了研究机床用夹板结构件的阻尼特性,分别制作了以HT200、QT500材料为基层和约束层,丁腈橡胶(NBR)板、聚丙烯塑料(PP)板、混凝土板和石蜡板为夹层材料的螺栓连接夹层结构件。研究了夹层结构的建模方法以及基层材料、约束层材料、夹层材料及厚度、
从幼儿园阶段迈向小学阶段,是人生早期的一个重要转折,如何帮助大班幼儿顺利适应小学的生活与学习,一直备受家长和社会的关注。面对幼升小,在大班阶段一部分家长过度强调知识准备,把孩子从幼儿园转到以小学知识教学为主的各种教育机构,提前学习有关小学课程,想让孩子“赢在起跑线”上,忽略了幼儿的身心健康、学习品质及社会性发展等关键素质的准备。然而,有些幼小衔接培训机构、学前班、私立幼儿园等机构利用家长的这种“不