论文部分内容阅读
语音端点检测是语音信号处理中非常重要的一项预处理技术,它的目标是从语音信号中判断出来语音部分和非语音部分,便于后续的语音信号处理的工作,比如语音识别、说话人识别。随着人工智能研究领域的火热,人机交互的频繁,语音识别作为语音信号处理中十分重要的一项工作,有着非常广阔的应用前景,所以语音端点检测技术的提高也被众多研究者所重视,作为语音识别系统的第一步,语音端点检测工作的效果是至关重要的。本文详细介绍并实现了双门限法、方差法和谱熵法这几种最具代表性的传统语音端点检测算法。这些传统信号处理方法,在较高信噪比的情况下,通过调整参数和阈值的办法,可以得到很好的端点检测效果,但通过实验发现,在不同类型的噪声环境下,总体的鲁棒性较差。针对以上问题,本文采用了深度神经网络和卷积神经网络作为分类模型,并结合麦克风阵列采集到的多通道语音信号,分别将单通道、双通道、五通道的语音信号提取特征之后作为分类模型的输入,进行了对比实验。实验所采用的是CHIME3语音数据集,噪声环境分别是生活中常见的公交车,咖啡馆,人行道和街区四个场景。通过对比实验结果表明,将麦克风阵列采集到的多通道语音信号作为输入时可以有效的提升深度神经网络和卷积神经网络模型的分类效果,且神经网络模型的分类效果对于不同类型的噪声环境具有一定的鲁棒性。