论文部分内容阅读
随着深度学习技术的发展,研究人员希望能搭建出更具拟人化的人机交互系统,而情感识别正是赋予人工智能拟人化表现的关键技术之一。对语音准确的情感识别在线上教育、心理治疗、交通预警等领域都起到极大的帮助作用。然而由于情感定义的模糊性和情感数据集的匮乏,对人类语音进行情感识别还有较大的研究空间。传统的情感识别方法通过提取音频中的手工声学特征,利用统计学方式对特征与情感关系建模,从而实现语音情感的分类。近年来随着深度学习发展,各种神经网络系统被应用在情感识别领域提取高维特征并进行分类,情感识别的准确率得到了极大的提升。然而,目前的大多数情感识别方法都着重于提取句子级情感表征,而忽略了情感在语句中并不是一成不变的物理事实。同时,数据集的规模也极大限制了情感识别的进一步发展。因此,本文提出一种声学分割建模方式对情感语音进行分段,对段落信息进行语义分析,获得更符合人类情感描述的情感特征,另一方面,通过融合多模态信息缓解数据集的稀疏问题,进一步提高识别性能。本文从以下的研究方向进行探索:首先,本文提出了结合声学分割单元和潜在语义分析的情感识别系统,利用GMM-HMM对语音提取的声学信息分帧建模,通过合并相同状态帧的处理得到语音的分割片段,将分割片段对应的单元类比为文本中的词项,并结合统计学处理,即使用潜在语义分析方法获取分割序列与情感描述的关系,最后经由神经网络分类器进行情感识别。基于分段的建模方式更符合语音中蕴含情感的物理现象,从而实现准确率更高的情感识别。其次,本文提出了结合声学分割单元和深层语义分析的情感识别系统,实现了分割单元与深度学习的结合。具体而言,对音频使用声学分割建模得到分割序列后,使用词嵌入方式将序列转换为词向量,通过神经网络进行深层编码,从而获取序列上下文的时序联系,同时使用注意力机制获取声学分割单元的统计信息,结合深层编码得到的向量作为深层语义情感表征,最后采用多层次数据增强方法缓解复杂模型带来的数据稀疏性。通过深层语义的分析,提取了更有效的情感映射特征,提高了系统的准确率。最后,本文提出了结合声学分割模型和文本语义分析的情感识别系统。通过引入文本信息,解决数据量不足带来的区分困难问题。使用预训练网络进行文本语义的提取,使用声学分割模型进行音频语义的提取,将获取的文本语义特征与音频语义特征进行特征融合。由于两种模态从不同角度对情感表征进行描述,具有情感识别的互补性,因此利用联合训练调整网络以及双线性池化方法结合两种语义特征,对模态间信息进行交互,实现了对情感识别系统性能的进一步提升。