论文部分内容阅读
随着生物信息技术迅猛发展,传统口令访问各类门禁安防系统的方式,难以满足用户对安全便捷方式的追求。而语音生物特征以获取方便,使用简单且不易被入侵等特点广泛应用于声纹身份识别领域。目前,各类声纹身份识别系统在安静环境和说话人语音正常情况下能获得较高识别率,但当面临各类非常态语音时(如:复杂背景噪声的语音、故意改变说话方式或习惯的语音、发音器官病变的语音等)其性能急剧下降。于是以非常态语音作为研究对象的语音信号处理技术受到广泛关注,并发展成为研究热点之一。现实生活中,说话人的语音极易产生病理性非常态现象,如:感冒、反胃酸、咽喉炎、声带发炎、鼻塞、醉酒等。为提高声纹身份识别系统的普适性,降低系统对非常态语音的拒识率。本文以病理性非常态语音中的感冒语音为研究对象,探索非常态连续语音的快速检测、与文本无关的非常态连续语音中变异特征的动态加权及最优说话人共同向量提取,主要贡献如下:1)病变非常态连续语音的检测算法。针对人为设定最优采样延迟和最优嵌入相关维的病变元音检测算法,不能客观有效地描述病变连续语音发音系统复杂性的缺陷,提出了一种基于相关维的病变非常态连续语音检测算法。通过分析信号频率,获得合理采样延迟范围,然后在合理采样延迟区间内调整采样延迟以获取相应嵌入相关维,最后对嵌入相关维进行等错率分析,将等错率最小的嵌入相关维和其对应的采样延迟视为最优混沌参数。实验结果表明:该算法的区分正确率为75.6%,分别比GMM-SVM,Shimmer,人为设定采样延迟和固定嵌入相关维算法,SHR算法和Jitter算法提高了7.8%,9.3%,16%,18%和20.4%。2)变异特征动态加权补偿算法。针对传统加权算法难以动态跟踪各阶特征变异的缺陷,提出一种变异特征动态加权补偿的非常态语音应对算法。分别利用K-L距离和欧氏距离,动态跟踪非常态语音与常态语音特征的差异程度,并对变异特征进行加权补偿。实验结果表明:通过异常特征的K-L和欧氏加权补偿后,声纹身份识别系统对非常态语音的识别率分别为46.61%和42.25%,比传统加权算法和不加权算法的识别率分别提高6.93%、10.25%和2.57%、5.89%。当面临轻微异常语音时,经过本文的K-L加权算法处理后,系统识别率为83.77%,与传统加权算法和不加权算法相比,系统识别率分别提高了16.51%和17.53%。3)非常态语音的最优说话人共同特征提取算法。从探索说话人常态语音和非常态语音的相对稳定,且有一定区分性的共同特征出发,引入说话人共同特征向量,并通过自适应调整共同向量参数以克服人为设定参数不客观的缺陷。提出一种非常态语音最优说话人共同特征提取算法。通过不断调整共同向量参数,使系统获得最优说话人识别率,并把最优识别率的参数视为最优共同参数。然后利用最优共同向量参数为测试语音提取共同向量,并用SVM分类器进行非常态语音说话人识别。实验结果表明:经过该算法的处理,系统的轻微非常态语音说话人识别率为85.4%,比GMM、SVM和结合共同向量和GMM算法识别率分别提高了16.9%、15.2%和3.2%。系统的非常态语音说话人整体识别率为51.8%,比GMM、SVM和结合共同向量与GMM算法的识别率分别提高了10%、8.6%和2%。4)最小模型距离的非常态语音说话人聚类。针对传统聚类算法性能严重依赖于预先设置的最优聚类参数的缺陷(最优聚类参数往往较难获得),在使用两层相似度判决克服预先设置聚类参数算法缺陷的基础上,提出基于最小GMM距离动态追踪的非常态语音说话人聚类算法。在对说话人高斯模型进行最小巴氏距离追踪的基础上,建立疑聚类集,在对疑聚类集中的说话人语音集进行聚类时采用两层相似度说话确认。实验结果表明:本章所提算法的Fscore为69.08%,比K-means的Fscore和ISODATA算法的Fscore分别提高1.99%和0.95%。同时,采用两层相似度判决时,本章算法的平均类纯度(ACP)比一层相似度判决的提高5%,平均说话人纯度(ASP)比一层相似度判决的提高8.8%。同时,采用两层相似度判决比一层相似度判决的Fscore提高了7.08%。