论文部分内容阅读
语音信号的端点检测技术就是从包含语音的一段信号中准确地确定语音的起始点和终止点,区分语音和非语音信号。有效的端点检测技术不仅能在语音识别系统中减少数据的采集量,节约处理时间,还能排除无声段或噪声段的干扰,提高语音识别系统的性能,而且在语音编码中还能降低噪声段和静音段的比特率,提高编码效率。因此,端点检测是语音处理技术中的一个重要方面。在低信噪比的环境中进行精确的端点检测比较困难,尤其是在无声段或者发音前后。本文首先总结了现有典型的语音端点检测算法,包括:基于短时能量及过零率的语音端点检测算法、基于LPC倒谱特征的语音端点检测算法、基于熵函数的语音端点检测算法、基于隐马尔可夫模型(HMM)的语音端点检测算法和基于子带平均能量方差的语音端点检测算法。分析了各种端点检测算法所选用的特征,并给出了部分算法的仿真结果。这些方法在静音环境下或当噪声较小时可以取得较好的检测结果,但在语音环境较恶劣、信噪比较低时,检测的结果下降较快,难以让人满意。随后在前人工作的基础上提出了噪声环境下三种语音端点检测新算法。算法一:提出了基于分形维数的语音端点检测方法。该方法利用了分形维数在噪声情况下作为语音端点检测参数的优越性,克服了在噪声情况下判决门限难以估计的问题。算法二:提出了基于分形维数和模糊RBF神经网络的语音端点检测方法。该方法结合了分形维数在噪声情况下作为语音端点检测参数的优越性,以及基于信息熵和神经网络的语音端点检测方法避免设置阈值的优点。仿真结果表明该方法对低信噪比信号,端点检测的准确率有一定的提高。算法三:提出了基于1/f分形信号小波模型和模糊RBF神经网络的语音端点检测方法。仿真结果表明该方法在常见的噪声环境下效果较好,算法实现简单,环境适应性较强。