论文部分内容阅读
随着说话人识别技术的日益成熟,研究人员开始专注于研究实际应用中复杂环境下的说话人识别技术来不断提升话者识别基线系统的性能,从而逐渐将话者识别技术向实用化推进。近年来,如何提取到更具区分能力的前端特征,建立一个推广性强的说话人模型开始受到说话人识别领域各著名研究机构的重视。与此同时,复杂环境下的信道补偿以及多系统间的融合方法的研究,也日益引起越来越多研究者的关注。在这种背景下,本文从整个系统构建的角度出发,以打造一个具有国际竞争力的话者确认系统为目标,借助于SVM强大的分类能力,围绕着构成一套成功的话者确认系统最关键的核心技术:模型训练,信道补偿、得分融合以及最重要的特征提取这四个方面展开了较系统而深入的研究。从而在较大程度上提升实际系统的性能,本论文的主要工作及创新点如下:首先,我们着眼于“话者模型训练”这一关键技术进行了较深入的研究:我们首先搭建了一个基于混合高斯超向量-支持向量机(GSV-SVM)的话者确认原型系统,接着对该原型系统的各模块进行了分析和改进。通过大量实验和分析发现SVM应用在话者确认建模时的正负样本非平衡问题严重降低了系统性能。为了解决非平衡问题,我们接着在本文中提出了两种方法:基于话者模型距离的度量方法(SMD)和支持向量重训练方法(SVRT)。SMD通过计算目标与冒认话者之间的模型间距离远近来判断两者之间的相似度,从而选择相似度大的冒认话者数据来做SVM负例样本。而后者则是在保持目标话者数据始终不变的情况下,直接使用SVM的区分特性,从海量数据中选择出最具代表的支持向量(SV)作为最后目标话者模型训练时的负例。这两种算法都在一定程度上解决了非平衡问题,从而达到提高性能的目标。其次,本论文在GSV-SVM系统框架基础上,针对复杂环境下的信道干扰问题,对现有扰动属性投影算法(NAP)做了几个方面的改进,提出了一种话路变化主成分分析算法(SVPCA-WCCN)。该算法在训练信道空间时,不仅利用了训练数据已知的信道类型标识信息,而且还考虑到在训练过程中增大不同话者模型之间的区分性,使得数据集合中已知的话者标识信息也得到了充分利用。该算法同时还起到了降维的作用。最终结合类内协方差归一化技术,对经过在信道干扰消除后的说话人空间进行投影后的特征向量进行平滑,从而进一步消除训练和测试之间的不匹配因素,得到鲁棒的目标话者模型。本算法在NIST数据库上的各种实验中都取得了较好的结果。第三,高层韵律特征参数因为其特征提取具有一定的难度而使其发展举步维艰。然而,这些特征的确具有良好的稳定性,不易受信道及噪声的影响,而且还能反映说话者的说话风格、习惯等具有良好区分性的个性特征。为了挖掘存在于高层韵律特征中的话者身份信息来进一步增强已经较成熟的基于底层声学特征参数的话者确认系统的性能,本文提出了一种采用韵律特征的话者确认方法:我们先介绍了韵律特征参数提取的若干细节,接着给出了话者确认系统的整个框架,最后给出了韵律特征在实际应用中需要用到的关键技术-分段加权融合算法(SWF)。在NIST数据库上的实验结果验证了韵律特征和声学参数特征的互补性,系统融合后可以较大地提升性能。该研究同时在话者确认的三大关键技术“特征提取、模型训练、得分融合”中都体现出了其贡献,从整个系统级的角度对基于韵律特征的话者确认系统做了全面的定位和分析。最后,本文针对话者确认中最本质的关键技术-“特征提取”进行了深入的思考,提出了一种全新的声纹特征,即基于谐波噪声模型HNM分解的频谱子带能量比特征参数(SSERs)。接着在SSERs特征的基础上进行了进一步深入的研究,提出了谐波子带能量和噪声子带能量特征。为了进一步完善新特征参数的提取方法,我们还提出了一种结合能量VAD和基音同步清浊音判断的后处理方法来更好的挖掘原始语音中存在的话者身份信息。我们首先将语音信号帧采用HNM进行分解,得到谐波和噪声两个成分,通过观察和分析语音信号帧在谐波和噪声部分频谱中每个频率子带的能量发现,即使是不同的两个目标话者在发同一个音的时候,这种子带能量的统计特性都能较好的反映他们之间的话者身份差异。为了突出所提特征的作用,我们排除其他因素的干扰,选择在干净环境下录制的中文863数据库进行验证实验。目前的结果表明,基于子带能量的一系列新特征参数已经能够在性能上超过传统的基于声学倒谱参数的特征,这为突破传统说话人识别中前端特征参数提取的深入研究奠定了一定的基础。