论文部分内容阅读
说话人识别是一种基于生物特征信息的识别方法,是语音处理领域的研究热点,目前对其研究取得的部分科研成果已经转化为实际的产品,成功的应用于电子商务、远程客户服务的身份验证和军事安全等领域。但是目前的说话人识别技术多是基于纯净的语音环境,一旦受到外界的噪声干扰,其识别正确率就会急剧下降。本文在总结前人研究工作的基础上,主要对噪声背景下说话人识别的语音分解问题、语音去噪问题、说话人个性特征参数提取问题和说话人识别模型的优化问题进行了研究,主要工作有:对语音分解问题,将EMD去噪方法在语音分解过程中出现的模态混叠现象进行了理论分析,通过构建的正弦信号和高频信号,对实际的噪声环境进行了模拟,分别对三种不同噪声信号叠加的情况进行了讨论,得出了使EMD分解不发生模态混叠所必须满足的最基本条件。由此基本条件出发,提出了一种改进的EMD分解方法,即IEEMD分解方法,该方法修正了原算法中对白噪声幅值和迭代次数的定义。在TIMIT语音库中随机选取1600段音频进行IEEMD分解,并与另外一种主流的EMD改进算法(EEMD算法)进行对比,统计两种分解方法所用时间,达到相同的分解效果,IEEMD算法消耗的时间在7s到9s之间,远小于EEMD算法50s到63s的计算时间。对语音去噪问题,首先为了解决ICA算法在处理语音信号时偶尔出现的不收敛现象,提出了一种高阶的TFast ICA方法,采用三阶收敛的牛顿迭代法代替原Fast ICA算法中采用的二阶局部收敛的牛顿迭代法,并对其收敛性进行了数学证明。通过实际的语音信号进行分析,本文提出的Tfast ICA方法满足了处理语音信号时的收敛性要求,没有出现因初始分离向量w的随机选取引起的算法不收敛的现象。最后结合IEEMD和TFast ICA各自的特点,采用TFast ICA算法对IEEMD进行后端处理,提出了一种IEEMD-TFast ICA语音去噪方法。通过TIMIT语音库和noisex-92噪声库进行仿真实验,采用本文提出的去噪方法去噪性能好于基于连续均方误差的IEEMD去噪方法以及基于尺度噪声的小波去噪方法。对说话人个性特征提取问题,本文对CFCC特征参数进行了理论分析,针对其存在的不足,提出了一种改进的ICFCC特征参数,将基底膜的非对称性和强度依赖性加入到了特征参数的提取过程中。通过TIMIT语音数据库,采用NIST测评使用的GMM-MMI说话人识别模型,将本文提出的ICFCC特征参数与MFCC-SDC特征参数和CFCC特征参数进行对比测试。测试结果表明,在-10dB多路重合噪声条件下,采用ICFCC特征参数的识别正确率达到了70%以上,优于采用CFCC特征参数达到55%的识别正确率和采用MFCC-SDC参数9%的识别正确率,表现出较好的鲁棒性。对于说话人识别模型参数的优化问题,本文提出了一种改进的PSOA算法进行优化。首先,提出了一种新的惯性权重策略,该策略在迭代初期可以保持一个较大值,延长了PSOA算法在迭代初期的全局搜索时间;而在迭代后期可以保持一个较小的值,增加了PSOA算法在迭代后期局部搜索的时间。其次,提出了一种新的粒子群位置更新公式,通过引入一种动量因子的惯性权重调整策略,使得种群不易陷入局部最优值,而且寻优结果的精确度有很大的提高。并从数学角度对本文提出的PSOA算法进行了分析,从理论角度证明了本文提出的PSOA算法的正确性和优越性。采用不同的测试函数对五种最新改进的PSO优化算法进行对比测试后,本文提出的PSOA方法在鲁棒性和求解精度上均好于其他四种改进的PSO算法。将PSOA算法用于SVM的参数优化问题中,其得到的训练时间最短,为324.7812s,而且平均正确识别率达到了83.28%,说明通过PSOA优化的SVM具有很好的鲁棒性、抗噪性和分类性能。最后,基于DE2-115开发平台,对本文提出的IEEMD-TFast ICA去噪方法进行了SOPC设计,给出了IEEMD-TFast ICA去噪方法的SOPC整体设计结构,并采用软硬件结合的方法实现了IEEMD-TFast ICA算法,首先通过Verilog HDL硬件描述语言实现了对TFast ICA算法的IP核设计,详细给出了TFast ICA 算法实现的步骤;然后基于Nios Ⅱ实现了IEEMD算法和其他基础外设的设计;最后通过对仿真信号和实际语音信号的测试,验证了IEEMD-TFast ICA去噪方法的正确性。