基于表示学习的语音增强算法研究

来源 :厦门大学 | 被引量 : 0次 | 上传用户:zhxg1030
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是最为重要的人机交互手段之一,语音的清晰度是人机交互得以顺利进行的关键,尤其影响着语音识别应用系统的识别性能。因此,研究语音信号增强以提高语音信号的清晰度具有重要的理论与实际应用价值,也是当前语音信号处理领域的热点之一。语音增强的关键点是有效的语音信号表示方法,有效表示是指表示方法能够区分语音信号与噪声、能够区分语音中的不同信号成分等,以便于抑制噪声和不感兴趣成分,增强感兴趣的信号成分。为此,论文分别从自适应字典学习和深度神经网络两个视角研究基于表示学习的语音增强方法,论文的主要研究内容与贡献有:(1)论文首次将贝叶斯自适应字典稀疏表示方法引入到语音表示领域,该表示学习方法利用贝塔过程因素分析(Beta Process Factor Analysis,BPFA)方法把字典学习、稀疏系数表示和噪声方差估计融合成一个贝叶斯后验估计的过程,其用概率分布来表示参数,能根据数据自身特点进行自适应学习,有效克服了传统字典学习算法对参数设置依赖性较大的不足。在NOIZEUS语音库上实现信号域上的语音增强实验,分析和讨论了该方法根据数据自身进行自适应字典学习和稀疏表示的能力,并证明了其能在不进行任何噪声方差估计的前提下有效去除环境噪声并提高人耳的听觉感受。(2)深度学习相关研究表明,自适应字典稀疏表示方法是一种浅层网络,仅能抽取信号中较低层的语义特征,为使语音增强算法具有较强的鲁棒性往往需要利用高层的语义特征。另外,语音信号具有较强的时间相关性,而目前的自适应字典稀疏表示方法难以有效刻画这种相关性。鉴于此,论文利用双向长短期记忆模型(Bidirectional Long Short-Term Memory,BLSTM)学习带噪语音特征和干净语音特征之间的关系表示,以有效利用语音信号的时间相关性以及高层语义特征。本文在中文数据库上对基于Mel频率的倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)进行特征增强,并通过不同噪声环境下四种语音识别系统识别性能的对比分析验证该增强方法具有较好的噪声鲁棒性。
其他文献
2006年开始的泰国政局动荡至今造成了严重的后果,它表面上反映出“泰国式民主”陷于困境,实际上透视了发展进程中的泰国民主政治在政治制度上的不成熟性、政治主体行为方式的
期刊
介绍了非洲猪瘟的流行情况、传播途径和预防措施。
变形监测是一种监测变形体安全性的重要手段。在变形监测点位稳定性分析中,平均间隙法是一种常用的方法,特别是在垂直位移监测网的稳定性分析中,其应用更为普遍。本文主要对平均
木糖是自然界第二丰富的碳水化合物(仅次于葡萄糖)。要有效利用木糖就要通过生物转化法,既微生物或者酶的催化将原料转化为更有附加价值的产物。许多微生物都能够将木糖作为一
目的 肺癌脑转移和神经胶质瘤是颅内最常见的恶性肿瘤,由于肿瘤血管上存在血瘤屏障(Blood-tumor barrier,BTB),大大限制了抗肿瘤药物到达肿瘤组织,使局部肿瘤组织不能达到有效
<正>第一部分:开题报告一、课题研究的背景中学数学,是中学教育教学阶段一门综合性和基础性较强的学科,它没有过多需要背诵和默写的内容,但是一些理论和概念性内容却是中学生
会议
著名作家贾平凹评价张爱玲时说:“她明显地有曹霭的才情,又有现在人的思考”,因此,“与张爱玲同活在一个世上,也是幸运,有她的书读,这就够了。”①足见张爱玲的才气!
服装CAD系统是服装生产企业信息化管理中的一个重要环节,利用服装CAD打板可以提高企业的生产效率,快速响应市场变化。然而,现有的服装CAD系统缺少智能性,基本可以看成是将传统的手工绘制样板工具转换为鼠标和键盘,其样板绘制过程并没有什么实质性的改变,仍然需要样板师的经验。因此,为了更好的适应企业需要,构建具有智能性的服装CAD系统就显得很有必要。本文提出一个智能服装样板生成方法,该方法主要面向服装企
探究了碱度和配碳对烧结矿液相固结主要粘结相的影响。在水分添加6.5%,制粒时间6min,点火温度1050℃,点火时间2min,点火负压6kpa,烧结负压11kpa的试验条件下进行单因素多水平