论文部分内容阅读
随着信息技术的发展,身份识别在信息安全领域发挥着越来越重要的作用。生物识别以其特有的稳定性、唯一性和方便性,逐渐成为身份识别领域中的重要研究方向。说话人识别技术是生物识别技术的一种,此技术的重点是根据说话人之间个性特征的差异来区分说话人。目前与文本相关的闭集说话人识别技术已经取得了较高的识别率,但是对于开集识别而言,识别率较低。因为开集识别要涉及到说话人辨认和阈值确认,所以辨认和阈值确认是开集识别的难点和关键。本文针对与文本无关的开集说话人识别技术,详细分析了说话人识别系统的基本原理和结构,并且对语音端点检测、特征参数提取、开集辨认、闽值确认几个部分进行了深入的研究。所做的主要工作如下:(1)预处理和语音端点检测部分,首先分析预处理和语音端点检测的重要性。然后从理论上描述基于短时能量的端点检测算法、基于短时过零率的端点检测算法、基于短时能频值的端点检测算法、基于谱熵的端点检测算法和基于改进谱熵的端点检测算法。最后对预加重和上述五个端点检测算法进行实验仿真,并对上述五个端点检测算法进行优缺点的比较。针对实验室环境下录制的说话人发音较小的特点,采用改进谱熵的端点检测算法。(2)特征提取部分,从理论上分析了参数提取方法和PCA理论。研究将PCA理论应用于特征参数的提取。仿真实验证明该方法能够在一定程度上改善识别性能,同时减少码本训练的运算时间。(3)开集辨认部分,针对传统VQ的不足,研究将FCM算法与PCA理论相结合的开集说话人辨认系统。仿真实验证明FCM+PCA具有比FCM、VQ+PCA和VQ更高的识别率。(4)开集识别部分,详细描述经典阈值、动态阈值、RS阈值的估计方法。研究将FCM+PCA辨认和RS阈值确认相结合的开集说话人识别系统。仿真实验证明此系统的EER与基于上述三种阈值的识别系统的EER相比较在一定程度上有所降低。