论文部分内容阅读
随着语音信号处理中各种技术的发展,语音激活检测技术被成功的运用于通信系统的各个领域中。语音激活检测已经成为语音编码,语音识别及语音分类等语音处理过程中必不可少的一部分。提高语音激活检测的准确率,特别是提高复杂噪声环境下语音激活检测的准确率是近年来研究的主要课题。传统的基于能量和过零率等语音激活检测方法已经不能适应现有多种复杂通信环境的需求。卷积神经网络作为一种智能处理方法,在解决音视频分类问题上受到了许多专家学者的关注,成为国内外研究的热点之一。本文通过学习研究卷积神经网络,同时结合国内外研究成果,提出了基于卷积神经网络的语音激活检测算法。主要工作如下:首先,通过对卷积神经网络进行学习研究,完成卷积神经网络结构的设计,使其能够适合进行语音信号处理。将训练样本语音每帧的梅尔频率倒谱系数及其一阶差分参数构成一个一维特征图谱作为本文设计的卷积神经网络的输入,通过输入大量的样本语音对卷积神经网络进行训练,使卷积神经网络能够根据输入的语音特征参数区分语音帧和非语音帧。在此基础上针对卷积神经网络的权值学习提出了一种语音分类的代价函数模型,该模型相比最小二乘法模型能够加快语音的分类。同时还将本文提出的语音激活检测算法和G.729中的语音激活检测算法以及GSM中的语音激活检测算法进行仿真比较分析,仿真结果表明,在普通室内外简单通信环境以及公交车站、机场、咖啡厅等复杂通信环境下,本文提出的语音激活检测算法要优于上述其他两种算法。其次,在完成卷积神经网络结构设计和仿真实验的基础上,用C语言实现了基于卷积神经网络的语音激活检测算法,并将其添加到WebRTC平台中。使用不同型号的手机终端在办公室、室外和食堂三种环境下完成语音激活检测模块的性能测试,并从主观MOS值和客观命中率两个方面对测试结果进行分析。测试结果表明,本文语音激活检测算法在上述三种环境下都能够很好的实现语音激活检测功能,并且性能优于WebRTC中的算法。最后,对本文的工作进行了总结,指出了今后的研究中需要改进的问题。