基于卷积神经网络的语音激活检测算法研究与实现

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:cstmddn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着语音信号处理中各种技术的发展,语音激活检测技术被成功的运用于通信系统的各个领域中。语音激活检测已经成为语音编码,语音识别及语音分类等语音处理过程中必不可少的一部分。提高语音激活检测的准确率,特别是提高复杂噪声环境下语音激活检测的准确率是近年来研究的主要课题。传统的基于能量和过零率等语音激活检测方法已经不能适应现有多种复杂通信环境的需求。卷积神经网络作为一种智能处理方法,在解决音视频分类问题上受到了许多专家学者的关注,成为国内外研究的热点之一。本文通过学习研究卷积神经网络,同时结合国内外研究成果,提出了基于卷积神经网络的语音激活检测算法。主要工作如下:首先,通过对卷积神经网络进行学习研究,完成卷积神经网络结构的设计,使其能够适合进行语音信号处理。将训练样本语音每帧的梅尔频率倒谱系数及其一阶差分参数构成一个一维特征图谱作为本文设计的卷积神经网络的输入,通过输入大量的样本语音对卷积神经网络进行训练,使卷积神经网络能够根据输入的语音特征参数区分语音帧和非语音帧。在此基础上针对卷积神经网络的权值学习提出了一种语音分类的代价函数模型,该模型相比最小二乘法模型能够加快语音的分类。同时还将本文提出的语音激活检测算法和G.729中的语音激活检测算法以及GSM中的语音激活检测算法进行仿真比较分析,仿真结果表明,在普通室内外简单通信环境以及公交车站、机场、咖啡厅等复杂通信环境下,本文提出的语音激活检测算法要优于上述其他两种算法。其次,在完成卷积神经网络结构设计和仿真实验的基础上,用C语言实现了基于卷积神经网络的语音激活检测算法,并将其添加到WebRTC平台中。使用不同型号的手机终端在办公室、室外和食堂三种环境下完成语音激活检测模块的性能测试,并从主观MOS值和客观命中率两个方面对测试结果进行分析。测试结果表明,本文语音激活检测算法在上述三种环境下都能够很好的实现语音激活检测功能,并且性能优于WebRTC中的算法。最后,对本文的工作进行了总结,指出了今后的研究中需要改进的问题。
其他文献
海德格尔对物之为物的思考尝试了多种途径,从前期的此在的时间性,到中期的世界与大地的争执,再到后期的作为天地神人之四重整体的聚集之物。在这个过程中,他将人的有限性一步
目的评价盐酸右美托咪定(DEX)对腹腔镜子宫肌瘤剔除手术患者术后静脉镇痛(PCIA)的影响。方法择期全麻下子宫肌瘤剔除术患者80例,ASA分级Ⅰ~Ⅱ级,随机分为2组(n=40)。术毕前15
<正> 本文运用《模拟电子技术基础》课的基本知识,着重介绍电路设计与制做的常用步骤和方法,供学生进行课程设计时参考。一、设计任务与指标要求设计制做一台OCL功率放大器。
为了解决语音识别中深层神经网络的说话人与环境自适应问题,从语音信号中的说话人与环境因素的固有特点出发,提出了使用长时特征的自适应方案。基于高斯混合模型建立说话人—
大学生非主流行为文化是当下大学生群体中勃兴的一种新型行为具象,是与主流行为文化相对而言的文化形态,具有自发性、弥散性、反叛性、流变性等外在特征,并以诸多途径和形式
目的优化乳腺冷冻切片的关键条件,以期提高制片效率与切片质量。方法通过实验,分别比较不同取材大小、速冻方法、切片厚度等条件对乳腺冷冻切片质量的影响。结果乳腺冷冻切片
舞蹈演员是舞蹈表演的主体,是作品的体现者和创作者。舞蹈表演的优劣直接决定着作品的成败。在舞蹈表演的广大范围内,舞蹈演员运用好表情性动作和表意性动作,从悦目—动听—
目的分析AECOPD(慢阻肺急性加重期)采用糖皮质激素联合特布他林治疗的临床疗效。方法选取2014年1月~2017年9月我院收治的AECOPD患者中选取98例,随机分为两组,对照组患者单独
本文针对"城中村"存在的问题及成因,阐明了"城中村"改造的目标和应遵循的原则,并提出了相应的改造策略和保障措施。