论文部分内容阅读
说话人识别是指根据包含在语音中的同说话人有关的信息来识别说话人,随着信息技术和通信技术的迅速发展,说话人识别技术越来越受到重视。目前国内外绝大部分说话人识别系统都是基于计算机来进行的,本文在重点研究说话人识别系统中的特征参数提取、识别方法等关键技术的基础上,在凌阳16位单片机SPCE061A上实现了一套具有实用意义的说话人确认系统,在进一步完善的情况下,可将其应用于语音门锁、语音考勤、医用语音控制等。本文的主要工作包括以下几点。(1)研究了基音周期的求取方法,并根据系统的实时要求,将逐点搜索基音周期的方法简化为粗细法,即在基音周期范围内隔点搜索相关函数最大峰值点,然后在此时得到的最大峰值点附近继续搜索,将最后得到的峰值点作为基音周期值。(2)分析研究了线性预测倒谱(LPCC)、美尔倒谱(MFCC)等特征参数,并分别在计算机和SPCE061A平台比较了LPCC和MFCC参数的识别效果,实验表明在SPCE061A平台采用LPCC参数比采用MFCC参数有更好的识别效果。(3)详细研究了动态时间规整(Dynamic Time Warping, DTW)方法。根据SPCE061A的存储资源限制,将全段DTW匹配简化为分段DTW匹配,从而减少了对搜索路径的存储开销;另外在匹配过程中采用早期终止策略,即在匹配过程中,一旦部分累积失真距离超过判决阈值,立即终止匹配,拒绝该说话人,从而减少了计算量。(4)针对说话人发音习惯的缓变性,提出了模板在线更新策略,把通常使用的“先训练再识别”的更新模式,优化为在“先训练”条件下的“边训练边识别”的更新模式,从而使得说话人确认系统可适应说话人本体的特征缓变,具有较强的适应性。(5)在凌阳16位单片机SPCE061A上用汇编语言编程,实现了一套具有实用意义的说话人确认系统,可进行性能演示,效果良好。目前说话人识别技术在实用中遇到的最大问题在于系统的噪声的稳健性。如何在噪声环境发生变化的情况下保持系统性能不下降,将需要进一步的研究和实践。随着相关学科的发展,一些更实用、更高性能的说话人识别系统,必将出现并广泛应用在人们的现实生活中。