论文部分内容阅读
声纹身份认证技术含有说话人生物特征,使用时只需要提取说话人的语音,与其他的身份认证如人脸、指纹、虹膜等相比具有获取方便和成本低廉等优势,在未来“互联网+”应用中用来进行声纹身份识别有巨大潜力。声纹特征参数提取是声纹识别系统的关键技术之一,片上可编程系统(System on Programmable Chip,SOPC)为说话人声纹特征提取应用研究提供了新的平台,在便携设备中集成说话人声纹特征提取IP核(Intellectual Property)来完成高性能声纹身份认证已经成为当前研究热点。为了满足声纹特征提取的嵌入式系统需求,为此本文在对说话人声纹特征提取深入研究的基础上,提出了基于多参数改进MFCC(Mel Frequency Cepstral Coefficient)的声纹特征提取SOPC设计,多参数主要是指时域上的基音、频域上的幅度谱和FFT点数。本文对算法仿真、硬件设计、IP核封装、系统测试等相关内容进行了研究:1.在深入研究传统Mel滤波器原理之后,针对传统Mel滤波器组的频带固定引起的说话人确认精度降低的问题,为了改进Mel滤波器组的适应性从而提高精度,设计了基于多参数改进的Mel滤波器组。时域提取的基音用于改进Mel滤波器组的频率带宽,频域提取的幅度谱和FFT(Fast Fourier Transformation)变换点数用于改进Mel滤波器组的输出。说话人语音中的基音通过低通滤波器提取,幅度谱和FFT变换点数通过对语音预处理数据进行FFT变换获取。2.在采用自顶向下方法完成Mel滤波器组的模块设计之后,利用NiosⅡ软核和IP核技术完成Mel滤波器组的封装。再结合Log、DCT(Discrete Cosine Transform)硬件模块,构建完整的声纹特征提取SOPC系统,完成语音数据输入与特征参数输出等功能。实验结果表明,利用多参数改进Mel滤波器组提取的MFCC相对于使用传统Mel滤波器组提取的MFCC在进行说话人身份确认时的正确率要高。本文基于多参数改进MFCC的声纹特征提取SOPC设计,对实现特征提取一体化设计以及未来基于网络的声纹身份认证需求提供理论基础和新的研究案例。