论文部分内容阅读
二十一世纪以来,信息技术的发展日新月异,在人工智能的浪潮下,实现简单、快捷、流畅的人机交互成为人们追求的目标。通过语音实现交互一直是人机交互领域重要的一部分,而语音识别技术正是人机语音交互的关键技术。近年来,研究者们在语音识别领域做了许多工作,取得了颇为丰硕的成果。真实环境中的语音信号是复杂的混合信号,其中既包含了丰富的语义信息,也包含了许多说话人相关信息(如身份、情感等)和环境信息,这也是我们人类能够顺畅沟通的前提。然而,目前绝大多数的语音识别研究主要集中在针对某单一内容或信息的识别,几乎没有研究能够像人一样同时识别语音信号中包含的多维信息。这样的单维语音识别模型忽略了人脑对多维语音信息的处理能力,摒弃了语音混合信号中多维信息之间的相关性,不利于机器理解语音的真正含义,也不符合智能化人机交互的要求。因此,为了使语音识别技术能够更加拟人化、智能化,本团队提出了对语音信号中的多维信息同时进行识别的课题,充分利用语音信号中丰富的多维信息,挖掘不同语音信息之间的相关性,对多项语音识别任务进行同时分类。本文在本团队前期研究的基础上,从分类模型构建和特征提取两个方面入手,研究说话人性别、情感、身份三类语音信息的同时识别。本文的主要工作和创新点如下:(1)本文将多任务学习(Multi-task learning,MTL)机制与循环神经网络(Recurrent Neural Network,RNN)结构相结合,充分利用语音信号中丰富的多维信息以及不同识别任务间的相关信息,构建了一个可以同时识别说话人性别、情感、身份的多维语音识别模型。模型采用梅尔频率倒谱系数(Mel-Frequency Cepstral Coefficient,MFCC)特征作为语音识别特征参数,选取带有属性依赖层的多任务神经网络结构,通过RNN共享层共享网络参数以学习各识别任务间的共有特征,通过全连接属性依赖层学习各识别任务自身的独有特征,利用MTL的机制调整模型总损失函数中各识别任务损失函数的权重,来针对语音数据库的特点进行性能优化,最终同时输出三种识别任务的识别结果。经过多项对比实验的验证,结果表明本文提出的基于MTL和RNN的多维语音识别模型在两种语音库上的平均识别率分别比单维识别高出3.01%和5.09%,三项识别任务均有一定的识别率提升,对于语种因素和说话人的个性因素有较好的鲁棒性,且具有一定的抗噪性能。不但展示多维任务识别的可行,同时也证明不同任务之间具有明显相关性,多维识别也是提高单维任务性能的重要方法。(2)由于基于MTL和RNN的多维语音识别模型采用的语音特征是常用的MFCC特征,其在特征提取时的各种滤波和变换操作去除了部分语音信息,而多维语音识别要求尽可能多的利用到语音信号中的多维信息。因此,本文将卷积神经网络(Convolutional Neural Network,CNN)结构与特征融合(Feature fusion)方法相结合,对特征提取部分进行改进,构建了一个基于CNN和特征融合的多维语音识别模型。将语音信号语谱图经过CNN提取的特征和人工提取的MFCC特征进行融合,充分利用了语音信号中的多维度信息,使两种特征进行互补,最后使用融合特征输入到多任务循环神经网络分类器中完成说话人身份、性别、情感三项任务的识别。经过实验验证,结果表明本文提出的基于CNN和特征融合的多维语音识别模型在两种语音库上的平均识别率分别比单维识别高出3.59%和6.01%,比MTL-RNN模型高出0.85%和0.99%,三项识别任务均有识别率提升,且具有更好的抗噪性能,证明了融合特征在多维语音识别上的有效性。