基于深度学习的语音去噪方法研究

来源 :陕西师范大学 | 被引量 : 0次 | 上传用户:xphant888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音不仅是人与人之间进行信息传递和情感表达的主要载体,还是人与智能设备之间进行命令传达的主要方式。信息传递过程中抑制背景噪音提高语音质量和可理解度成为语音去噪的主要目的。传统语音去噪方法需要假设语音信号的分布并估计噪音信号中的能量信息,对平稳噪音有效但对非平稳噪音抑制效果很差。随着人工智能的发展,深度学习的方法被应用于各方面取得了不错的效果,并且深度语音去噪方法能有效地抑制非平稳噪音,在实际应用中有着广阔的前景,因此本文将研究基于深度学习的语音去噪方法。本文为提升去噪后语音的质量和可理解度,提出了基于Attention Res-UNetGAN模型和基于Res-SA Wave-U-Net模型的语音去噪方法。这两种模型都在波形域对语音去噪,不需要对语音进行傅里叶变换等操作,操作简单且能充分利用语音信号的相位信息,是端到端的语音去噪方法。实验表明本文提出的去噪模型提升了去噪后语音的质量和可理解度。本文主要工作如下:(1)本文提出了基于Attention Res-UNetGAN模型的语音去噪方法。针对生成对抗网络只采用卷积级联的方式存在对语音信号底层信息表示能力不足和采用直接跳连造成特征冗余的问题,Attention Res-UNetGAN模型通过嵌套残差模块和注意力跳连解决这些问题。嵌套残差模块将两块基础残差块进行残差连接,通过增加网络中的非线性路径提升网络对语音信号的建模能力。对称上采样层和下采样层之间通过注意力跳连和直接跳连的混合使用进行特征拼接,有效地减少了模型计算负担并保留更多的特征信息且加强了模型梯度传递能力。最后,在公开VCTK数据集上进行评价,后经PESQ等语音客观质量评价指标评价,Attention Res-UNetGAN模型提升了去噪后语音质量和可懂度。(2)本文提出了基于Res-SA Wave-U-Net模型的语音去噪方法。针对Wave-U-Net去噪模型存在的2个不足之处:上下采样块只采用卷积运算掩盖了语音信号存在的长距离依赖关系和上下采样块进行特征拼接时存在特征差异,提出了自注意力残差模块和残差跳连模块并融入Wave-U-Net网络中形成了新的去噪模型——Res-SA Wave-U-Net。自注意力残差模块由融合一维非因果时序空洞卷积的残差块和自注意力块组成。一维非因果时序空洞卷积增加了网络的感受野,自注意力块学习的语音时间特征增强了模型的鲁棒性。残差跳连有效地缩小了特征拼接时存在的语义鸿沟。最后,在VCTK数据集上验证了模块的有效性及Res-SA Wave-U-Net 模型的去噪能力,Res-SAWave-U-Net 模型的 PESQ、CSIG、CBAK、COVL指标值分别为2.55、3.85、3.29、3.19,比Wave-U-Net模型各指标值分别提升了 6.25%、9.38%、1.54%、7.77%。
其他文献
帕米尔高原位于青藏高原的西缘,是昆仑山、喀喇昆仑山、兴都库什山和天山交汇的巨型山结,面积约10,100km2,平均海拔高度超过4500m,是印度河、阿姆河、塔里木河、叶尔羌河、喀什噶尔河等众多河流的发源地。帕米尔高原的大气降水和冰川积雪消融为周边河流提供了超过50%的径流来源,对中亚的水资源起着至关重要的作用。中亚地区水资源日益紧张,如何合理利用好帕米尔地区有限的水资源,一个重要的前提是对帕米尔高
学位
铅卤钙钛矿纳米晶体因其荧光量子产率高、发射光谱窄、具有可调谐的发射光谱等优异光学性质受到广泛的关注。研究人员利用铅卤钙钛矿纳米晶体这些优异的光学性能,建立了一些荧光分析方法,并成功地用于离子、气体、有机物的检测。这些荧光分析方法都是利用单一发射波长下的荧光强度实现定量检测,测试结果易受到检测环境以及荧光探针自身浓度的影响。比率型荧光探针可以通过两个或多个发射波长处的荧光强度进行自我校准,削弱检测环
学位
在当今实践中,因为当事人缺乏诚信抑或是不了解相关法律规定等原因,在设立不动产抵押权之时,因未办理抵押登记而导致抵押权不得设立的情况屡见不鲜。《中华人民共和国担保法》(以下简称“担保法”)明确表明,以不动产作为标的的抵押合同之生效与否取决于是否办理相关登记手续。《中华人民共和国物权法》(以下简称“物权法”)对上述规定进行了相应修改,也即登记手续的办理与否并不会对抵押合同本身的效力产生影响,也就是说在
学位
城市绿道建设是贯彻落实习近平生态文明思想,推动形成绿色发展方式和生活方式,建设美丽中国和健康中国的重要内容。《全国城市市政基础设施建设“十三五”规划》将绿道建设作为一项重点工程,提出到2020年新增绿道2万公里的目标。绿道作为绿色线性空间,在城市中发挥着重要的作用,不仅将生态、美学、娱乐、经济等功能集于一体,还能对绿地进行最大程度的集约化利于,有效地将城市风貌、自然资源、人文景观进行整合,将绿色空
学位
建立数学模型研究现实问题在很多领域都有着广泛的应用,特别是在传染病和病毒感染的研究领域.现实生活中病毒感染导致的疾病一直影响着人类的健康,建立数学模型在理解这一问题方面起到了重要的作用.数学模型研究的方法主要是通过了解病毒感染机制,建立符合病毒感染过程的动力学模型,进而研究病毒感染相关的数学模型的动力学性质,并结合模型中每个变量表示的生物学意义,来揭示病毒感染的内在感染规律,最终应用到传染病的预防
学位
脑卒中是导致我国成年人死亡和残疾的首要原因,脑缺血是其发病率较高的一种类型。目前脑缺血的治疗方法一方面利用药物溶栓或手术取栓,疏通堵塞血管,但这仅适用于脑缺血发病初期,后期溶栓会导致缺血再灌注损伤;另一方面是从神经保护角度考虑,运用神经保护剂,此方法不仅有助于建立侧支循环,还可抑制缺血再灌注损伤和神经细胞死亡。目前针对脑缺血,真正有效的神经保护剂少之又少,大部分由于临床无效或副作用被迫终止使用。许
学位
在吸油烟机风量达标的前提下,目前各品牌在吸油烟机的噪声方面关注度比较高,噪声的大小直接影响人们选购的意向。国家也在不断地对吸油烟机噪音提出更加严格的标准,在颁布新的噪声标准后,对吸油烟机的品质要求又提升一个层次。因此如何降低吸油烟机工作时的噪声问题,在未来会是吸油烟机市场一个大的发展趋势。本课题针对方太的吸油烟机在工作状态下叶轮产生异音的问题,采用试验检测和有限元仿真相结合的方法对吸油烟机的叶轮异
学位
超声技术目前在工农业、医药以及环保领域有着广泛的应用。换能器作为实现电能和声能相互转换的器件,对超声振动系统的性能起到了决定性的作用。在众多换能器的形式中,复合棒型换能器更多出现在如超声清洗、超声切削、超声焊接、增强化学反应等大功率应用场景。传统的复合棒换能器由金属振动体和压电晶堆所组成,具有电声效率高、机电耦合系数高及功率容量大等特点,随着超声应用的不断发展,对换能器的发展方向和应用场景也提出了
学位
文章以广西乐业县壮族纺织与壮族女性为研究对象,结合文献资料与田野考察,论述乐业县壮族纺织工艺的文化内涵及特点;分析壮族女性的文化自觉产生的内因和外因;探讨壮族女性与纺织之间的双向构塑关系,纺织塑造壮族女性,而壮族女性是纺织文化的传承者和创造者,二者关系密不可分。在壮族纺织需要实现现代化传承的背景下,作为纺织传承的主体,女性的文化自觉有助于推动传统文化的传承。首先,随着时代的发展,纺织对壮族女性的影
学位
随着国企改革三年行动方案的深入实施,国务院国资委不断出台深化混合所有制改革、建立灵活高效的市场化机制、推行超额利润分享及员工持股试点等一系列政策措施,主要目的旨在为了激发国有企业竞争活力。尤其在面临国内外全球竞争、国家安全、疫情防控等各类突发事件、国计民生的重大事件中,国有制造业企业更是发挥了不可替代的作用,因此搞好国有企业,坚定不移把国有企业做强做优做大,是当前及未来的一项重要工作。要推动国有企
学位