论文部分内容阅读
语音是人类获取信息的主要来源之一,也是最方便、最有效、最自然的交流工具。说话人识别技术在近三十多年的时间里取得了很大的进步,这种技术的应用为人类的日常生活带来很大的便利。但是,随着说话人识别的实用化,不同应用领域对其要求。也越来越高。一方面,发音的多变性使说话人识别系统的适应性还有待提高;另一方面,噪声、训练时间以及通信信道失真等问题也会产生很大的影响。对于说话人识别来说,最主要的两个问题是如何从语音中提取单纯反映说话人身份信息的鲁棒特征,以及如何建立有效的识别模型达到实际应用中对速度、数据量、使用条件等方面的要求。本文针对汉语语音的特点,从分离身份信息和提高系统鲁棒性两个方面出发对汉语说话人识别展开研究,提出了新的说话人识别框架、模型和算法,主要取得了以下创新性成果。本文的核心是提出了一种新的基于汉语元音映射的说话人识别框架。该框架的基础是将汉语韵母中的元音部分以单元音音素为单位进行分解,对此我们使用频谱对比、特征对比、单元音滑动统计分布、分类器识别率等方式证实了从短时帧角度出发,汉语韵母可以分解为单元音音素的组合,并通过大量的实验建立了汉语韵母到单元音的映射表。相对于传统的说话人识别模型,新框架增加了汉语单元音音素分类模块进行韵母分解,并将多个针对单元音的说话人识别器组织起来代替传统的匹配或统计模块对帧特征进行处理。根据这个框架,每个针对单元音的说话人识别器进行说话人识别时避免了语义信息的干扰,增强了分类的针对性;同时,整个系统以短时帧作为基本识别单位,更易于达到实时处理的目标。根据基于汉语元音映射的说话人识别框架,提出了基于汉语元音分类的矢量量化说话人识别方法。由于每个矢量量化分类器在训练和识别过程中避免了语义信息的影响,该方法利用较小的码本就可以获得较高的识别率。然而,为了保证码本质量,需要大量的训练数据和识别数据。针对说话人识别方法需要大量数据参与训练和识别的缺点,结合新框架,本文又提出了基于仿生模式识别的汉语说话人识别方法。该方法在训练过程中为每个说话人的每个单元音音素帧特征在特征空间中建立一个包络;识别时通过分析测试帧特征与包络的关系进行判决,大大缩减了对训练和识别数据量的需求。在研究过程中,我们发现基于汉语元音映射的说话人识别框架由于增加了单元音分类模块,会带来分类误差并导致识别速度下降。对此,结合集成学习理论,我们提出了基于汉语元音映射的神经网络集成说话人识别方法。该方法在识别过程中不需要预先对测试语音帧进行元音分类,省略了元音分类模块,从而避免引入元音分类误差,加快了识别速度。此外,针对新的说话人识别框架的特点,本文在预处理和抗噪方面也进行了研究和改进,主要包括:提出了基于频谱特征的自适应元音帧提取算法,在损失端点检测准确性的前提下提高元音帧提取的速度和正确率;结合谐波积谱思想改进了基音提取算法;提出了基于背景估计的自适应抗噪方法,实现GMM模型下数据噪声背景不同时特征的提取、修正和识别;针对测试数据与训练数据背景不同的情况,从特征值处理和模型补偿两方面考虑,提出了基于高斯混合模型的加权特征补偿变换的抗噪方法,进一步改善了系统的性能。从本文一系列仿真实验的结果分析可得,基于本文新框架、模型和算法实现的说话人识别系统在识别率、识别速度和抗噪能力上都有所提高。特别是基于汉语元音分类的思想为分离语音特征中的语义信息和话者身份信息,将文本无关的说话人识别转变为文本有关的说话人识别提供了新的思路。