论文部分内容阅读
为了改善发声力度对声纹识别系统可靠性的影响,本文将从说话人模型与特特征两个层面对声纹识别系统展开研究。论文的主要工作包括:1、基于对说话方式现阶段研究的分析,选择说话方式中具有代表性的发声力度作为本文的主要研究对象。同时,还建立了一个适用于声纹识别中发声力度可靠性研究的数据库。说话方式中发声力度自2010年提出以后,才逐渐受到研究人员关注。大量文献研究表明,发声力度对声纹识别系统性能影响很大,且具有研究价值。通过参考2010年美国国家标准与技术研究院(National Institute of Standards and Technology,NIST)声纹识别评测主办方发送给参赛单位的Tarball数据库的设置,本数据库在录制时仅考虑了同一个人对耳语(whisper)、高喊(shouted)、正常(normal)三个量级语音的演绎,数据库共30人参与录制,其中男性15人、女性15人。2、通过对不同发声力度语音信号声学特征以及模型可视化的分析,表明发声力度有对声纹识别系统可靠性造成影响的可能性,并且基于此提出了不同发声力度语音特征是一个特殊的独立子空间的假设。首先,本文通过对同一说话人不同发声力度下语音的共振峰、基频以及频谱图的分析,发现不同发声力度下语音信号的声学特征具有明显差异;其次,本文通过同一说话人不同发声力度语音模型均值向量的位置分布以及它们之间相对位置的偏移情况分析,发现不同发声力度语音模型之间偏移明显且相互混杂。基于以上两点,提出不同发声力度语音特征是一个特殊的独立子空间的假设,该假设在相关实验中也得到了初步的验证。3、使用最大似然线性回归(MLLR)模型投影与约束最大似然线性回归(CMLLR)特征空间投影方法投影变换模型特征,以达到提高声纹识别系统可靠性的目的。在被测试人在进行语音预留时,没有预留不同发声力度大小语音的情况下,本文提出使用MLLR模型投影方法与CMLLR特征空间投影方法利用开发集中的语音数据训练投影转换矩阵,若矩阵训练有效,MLLR模型投影方法会使得说话人模型学习到不同发声力度语音的区分性信息;CMLLR特征空间投影方法会使得说话人测试语音中带有的不同发声力度区分性信息被削弱。实验证明,以上的两种方法均有效的改善了训练语音与测试语音之间的失配问题,使声纹识别系统性能得以提升,变得更加可靠。4、在使用最大后验概率(MAP)自适应方法更新说话人模型的基础上提出了最大后验概率+约束最大似然线性回归(MAP+CMLLR)方法更新说话人模型、投影转换说话人特征。在被测试人在进行语音预留时,在预留少量不同发声力度大小语音的情况下,本文提出使用MAP自适应方法更新说话人模型,使说话人模型学习到不同发声力度语音的区分性信息;MAP+CMLLR方法则是在使用MAP自适应方法更新说话人模型的同时,利用CMLLR特征空间投影方法投影转换测试语音,使说话人模型在学习到不同发声力度语音区分性信息的同时,削弱测试语音中不同发声力度语音的区分性信息,MAP+CMLLR向着削弱与学习耳语、高喊语音区分性信息中间的一个平衡点靠拢,当达到平衡点时,两者相互制衡,说话人区分性信息将得以突出,说话人识别系统性能得以提升,从而提高了发声力度影响下,声纹识别系统的可靠性。