论文部分内容阅读
人声识别系统的鲁棒性(Robustness)是影响其走向实际应用的关键,其中噪声和变异是影响系统鲁棒性的主要因素。由于人声模型较难以建立,所以对于非特定人的识别就更为困难。在对噪声影响的研究中人们发现,随着外界噪声强度的增加,人的情绪和发音方式也会发生变化。本文主要研究舰船航行数据记录仪(Voyage Data Recorder, VDR)环境下的人声识别,分别从基于特征和基于模型角度提出可以在噪声环境下进行人声识别的有效方法。从基于特征的角度出发:首先根据人耳对不同频段的感知程度不同,提出了结合人耳响度特性的子带分频加权算法来降低噪声对MFCC的影响,加权的原则是对识别贡献率较大的子带赋予相对较高的权值,反之则赋予相对较低的权值;其次,针对语音产生过程中存在的非线性现象,通过对非线性AM-FM模型的深入研究,本文提出了改进的MFCC特征系数加权算法,使用该算法提取的MFCC特征能有效利用语音信号中的幅值包络和瞬时频率信息,同时又兼顾了耳蜗子带分频特性,使系统的识别率有一定的提高。同时,采用最大相对熵权值对MFCC特征系数加权,一定程度上解决了不同特征维受环境影响不同的问题,提高了系统的鲁棒性。从基于模型的角度出发:采用Reynolds提出的自适应目标模型方法为人声建立公共背景模型GMM-UBM,并提出了一种基于GMM-UBM的开集动态阈值搜索算法。该算法可以对系统阈值进行动态跟踪设定,实现了系统开集状态下的人声识别,GMM-UBM具有屏蔽背景噪声的作用,不仅很好的解决了模型的训练速度问题,而且使用小训练样本就可以训练出与人声UBM模型具有相同混合度的话者模型,进一步提高了人声识别系统的性能。另外,在预处理阶段提出了基于近似熵的动态自适应阈值端点检测算法,较好的解决了舰船噪声对识别系统的影响,试验结果证明该算法优于自适应子带谱熵端点检测方法。