论文部分内容阅读
人的语音虽然具有独立性,但也是可以被模仿。模仿者蓄意模仿说话人的声音,当相似度较高或几乎相同时,当前的身份确认系统有可能会被模仿者欺骗。语音模仿技术的出现就给当前的信息安全带来威胁,这就使得有必要加强当前说话人识别系统的安全性,开展反模仿技术的研究。本文详细介绍了基于动态阈值的说话人反模仿系统。 文中首先介绍了常用语音特征参数,并使用了一种新的方法来实时提取语音特征;接着介绍了说话人识别方面的基本概念、原理以及当前的研究现状,并简单介绍了当前流行的说话人识别方法。 要实现反蓄意模仿,理想状态就是要让说话人确认系统的错误接受率为零。而本文所进行的基于矢量量化以及高斯混合模型的说话人识别的实验都证明:当说话人确认系统的错误接受率为零时,其错误拒绝率极高使得系统几乎不可用。传统的确认方法受到阈值的影响不能满足反模仿的要求。而基于动态阈值的说话人确认方法利用当前说话人辨认的性能已经非常好的特点,将说话人辨认的策略融入到说话人确认当中来,无需设置阈值,具有较强的判断冒名顶替者的能力,同时系统的错误拒绝率依然保持在可用的水平。该方法通过建立一个综合了多个说话人语音特性的非特定说话人模型,使其能够对于不同的待确认语音给出不同的判决阈值,从而解决了说话人确认在判决阈值设置上存在的困难,提高了系统的自适应性。为了使新的判别策略适用于实际开放的应用环境,在现有的 N个说话人模型之外附加一个全局说话人模型,这个模型训练所使用的数据是所有参考说话人的训练数据。于是,在改进的判别策略中一共有N+1个说话人模型,其中全局说话人模型代表了多个说话人的共同特征。 为了验证系统,特意创建了模仿者的语音库,并以此进行训练、测试。实验结果证明了本文所提出方法的有效性以及实用性,很好的克服了传统方法的局限性。 本文最后给出了研究结论,并指出了不足之处,给出了未来的研究方向。