论文部分内容阅读
语音端点检测是语音分析、语音合成和语音识别中的一个必要环节。尽管语音端点检测技术在安静的环境中已经达到了令人鼓舞的准确率,但是在实际应用时由于噪声的引入和环境的改变通常会使系统性能显著下降。语音端点检测技术要走向实用,就必须克服鲁棒性问题,因此低信噪比噪声环境下的语音端点检测技术的意义非常重要。本文以应用型语音端点检测技术为目标,以系统鲁棒性为研究重点,对噪声环境下的孤立词和连续语句的端点检测的各个方面都做了深入的研究。通过对鲁棒性语音端点检测的系统研究和实验,本文形成了一套完整的复杂噪声环境下的语音端点的检测研究体系,包括了语音数据库的建立、自适应滤波算法、基于分类标准的延迟分割策略等,并在此基础上构建了一套完整的语音端点检测系统。其具体的研究成果包括以下几个方面:⑴端点检测实验系统深入研究语音信号数学模型和不同语音信号的特征值及提取,收集到了TIMIT标准纯净语音库和NOISEX-92标准噪声库,给出了噪声的度量标准,建立了混噪语音平台,保证了后期实验的可重复性。⑵语音增强算法针对常规的自适应滤波算法在收敛速度和稳定精度以及计算复杂度上不可协调性,引入了欧式搜索算法,对算法做了多处改进,降低计算精度,大大改善了收敛速度和稳定性,经过对比实验验证其性能接近RLS算法,而其计算量却小很多。在MOS和SNR评价方法中,也获得了较高的表现。⑶端点检测算法详细地分析了常用的双门限端点检测方法、基于谱熵的端点检测算法和基于分形理论的端点检测算法。引入了排列熵,一种作为非线性动力学参数能够很好的表示出语音信号的非线性特征。提出了一种延迟分割策略:以能频比为特征参数确定粗端点,并在此基础上使用排列熵差分算法确定精确端点,以精确端点为起始点分割语音信号,对所得到的语音片段信号按照分类标准消除噪声信号带来的错误分割。⑷系统实现利用Matlab GUI工具实现整个端点检测系统界面,利用第二章的语音数据库开展端点检测不同方法的对比试验。实验表明文中提出的方法比基于常规的双门限、谱熵的方法有更好的检测效果,特别是在低信噪比的情况下,基本能达到基于分形的方法效果。但是加上滤波效果后文中的方案的效果远超其他方法。同时由于排列熵算法的简单易实现,算法的实时性表现非常好,其计算的复杂度远小于分形方法。