论文部分内容阅读
说话人识别是指通过对说话人语音信号的分析处理来自动识别说话人的身份,它在许多领域内有着良好的应用前景。本说话人识别系统是建立在基于FPGA的嵌入式系统之上的,采用了矢量量化的方法,它包括三个主要模块:特征提取、模式匹配和硬件平台。在特征提取过程中,将从说话人的语音信号中提取能够体现个性特征的少量参数,并对提取算法以速度为优先指标进行优化。在模式匹配模块中包含两个部分:一是码书生成步骤,二是识别步骤。在硬件平台模块中,将利用FPGA设计一个SOPC系统,以完成语音信号的采集、人机交互接口等功能,并利用FPGA的并行处理特性对模式匹配的算法进行加速。本文首先在对语音信号的时域处理方法进行研究的基础上,对常用特征参数提取原理和特点进行研究,其中,重点研究了美尔频率倒谱系数的原理和特点,设计和实现了提取步骤。然后,在对主流模式匹配方法的研究基础上,重点研究了矢量量化的方法,并在介绍了矢量量化的原理和失真测度的基础上,研究矢量量化器最优码本设计的算法—遗传算法。接着,对本系统所使用的基于SOPC的硬件平台进行了设计,并设计和实现了硬件模块与软件系统的接口。最后,设计了一套以MFCC为特征参数、以遗传算法为码本设计算法、以矢量量化为模式匹配方法的说话人识别算法,在基于FPGA的嵌入式平台上实现,并对算法进行一系列的软、硬件优化,同时,提出了一种新的失真距离计算方法—分段均值距离法,通过在实际硬件平台上的实验,得出了在增大各码本失真距离间距方面有着较好的效果的结论。本系统采用美尔频率倒谱系数特征参数,提高了系统的识别性能;采用遗传算法进行码书设计,并利用K-均值聚类算法加快码书收敛速度,优化了码书性能;采用分段均值距离法获得较稳定的阈值,提高了系统的拒识率。本系统获得了很高的识别率和拒识率,并具有运算速度快、差错率低、系统硬件要求较低等优点,具备了一定的实用化能力。