论文部分内容阅读
声纹识别是人工智能AI和身份安全认证的主要技术之一,围绕“智能时代,数字经济”的主题下,实现计算机与人之间的智能交流,声纹识别将是必不可少的科学技术关隘。 本文的具体工作如下:以声纹识别的整体结构为路线,先是分析目前声纹识别的技术和基本概念,再逐一讲解声纹识别的三大部分——前期处理、特征参数和模式识别。 本文的主要内容和创新点如下: (1)传统双门限法和音量阈值法由于只使用固定的阈值来检测语音段,不能随着环境变化而修正阈值参数,抗噪性能差,本文提出一种凹点分析端点检测的方法,配合基因周期过滤大音量噪声,实现语音段的精确检测。实验表明,即使信噪比逐渐上升,改进的算法也优于传统双门限法和音量阈值法的抗噪性能,并且低信噪比时仍能有效检测语音端点。 (2) MEL倒谱系数(MFCC)作为特征参数有很多优点,而MFCC的滤波器个数和阶数都是按传统的24滤波器12维来运算,为了提高识别的效率和准确率,本文提出用增减分量分别检验MFCC每个倒谱系数ci的贡献度,改进滤波器个数和倒谱系数维数,通过新的倒谱系数的组合来改进MFCC的性能。 (3)传统的单一的MFCC参数抗噪性能比较差,不足以抵抗复杂环境下的噪声,本文提出一种全新的混合倒谱特征参数,添加具有很强抗噪性能的Gammatone滤波器的倒谱特征参数(GFCC),配合体现帧与帧之间动态特性的差分MFCC和差分GFCC,得到(MFCC+△MFCC+GFCC+△GFCC)的混合倒谱特征参数,经过实验表明,新的混合倒谱特征参数具有更高的抗噪性能和识别率,在正常实验室环境下识别率能到达到94%以上。