论文部分内容阅读
说话人识别技术由于其独特的便利性、精确性和经济性,被认为是最自然的生物认证技术,在安全监控、司法鉴定、电子侦听、金融服务等方面都具有广泛的应用前景。当前,说话人识别系统开发已逐渐从理论研究转向实际应用,对其要求也随着应用环境的变化而越来越高,不仅期望具有极高的识别率,还要具有较高的实时性。此外,系统构建的便捷性、模型扩展能力等都不容忽视。近十几年来,基于核函数的分类算法已成为模式识别领域的研究焦点,它有效克服了传统模式识别方法中局部极小和非完全统计分析的缺点,具有很强的非线性处理能力,而说话人识别系统中输入的语音特征参数正好是非线性的且局部特性复杂。因此,本文提出密度诱导型数据描述单类分类机,将其应用于说话人识别时能够获得很好的效果。本文以小样本语料库为应用对象,针对说话人识别中的辨认任务,提出了具有较好的核分类方法。主要工作如下:(1)详细介绍说话人识别中应用最为广泛的两类特征参数LPCC和MFCC以及他们的提取过程和方法。(2)介绍了支持向量机的基本理论。经典的支持向量机只支持二元分类的情况,我们借助“一对一”或“一对多”技术对其进行多元扩展并应用于说话人识别(3)将支持向量数据描述(SVDD)应用于说话人识别,SVDD在训练过程中只需单类样本,可以胜任多分类任务。为适应开集辨认任务提出了密度诱导型数据描述单类分类机(DISVDD),此算法以支持向量域描述(SVDD)算法为基础,通过一种简易的形式引入数据间密度因子,使处于不同区域的数据对分类器的作用不再被同等对待,高密度区数据对分类支撑域的作用被强化,而低密区即呈零星分布的数据作用被削弱,结果使分类超球体自动靠近数据高密区而提高其识别性能。说话人辨认实验结果表明,DISVDD模型的识别性能全面优于GMM。(4)针对越来越多的场合需要利用生物识别技术来提高信息的安全性,本文将DISVDD应用于声纹锁中,使用该算法可以在一定程度上提升系统的实时性及准确率。(5)最后,对本文工作进行了总结,并对声纹识别系统的进一步研究进行了展望。