论文部分内容阅读
随着时代的发展,对人类情绪的识别已成为一个非常热门的研究领域。常见的有基于面部表情、文本内容、生理信号以及人类语音等方面的情绪识别方式。其中,作为日常生活中最主要的沟通和交流方式之一,语音中包含了大量的说话人的情绪信息,对于这些信息的充分获取和识别不仅推动了人类之间的交流,也对人机之间的交流效果有着很大的影响。近年来金融业、旅游业、远程教育和刑侦测谎等各个行业和领域中人机交互的繁荣使得利用人工智能理解和区分人类情绪的需求日益高涨,因此,语音情绪识别拥有着极其重要的现实意义和非常广泛的应用前景。
对语音情绪的识别源于声学的研究和统计,此前大量研究工作的重点都放在寻找新的声学特征以及对已有声学特征进行组合选择上,这些特征一般需要进行手工提取,所以需要一定的声学理论基础和大量的实验尝试,并且难以深入挖掘人们无法察觉的特征。而语谱图从时域、频域和能量上反映了大量的语音隐藏信息,近年来已成为语音情绪识别的新热点。卷积神经网络(CNN)作为一种自学习方法,能够深入挖掘图像的特征信息用于分类,在图像识别领域上表现优异。因此,本文选用CNN模型从语谱图方向入手来进行语音情绪识别的研究工作。
本文的主要研究工作如下:
(1)根据INTERSPEECH2009情感挑战赛特征集,提取CASIA汉语语音情绪数据库公开部分数据的声学特征,分别运用KNN和SVM方法进行语音情绪识别,得到了较好的识别效果。
(2)通过对音频数据预处理、绘制出语谱图后,运用CNN方法进行语音情绪识别,经过与基于声学特征的传统KNN和SVM识别方法对比,虽然不及传统声学特征的准确率,但仍然验证了基于语谱图的CNN方法的可行性。
(3)针对原始数据集样本较少的缺陷,采用离线图片增强的方法模拟加入语音样本对原始语音集进行了扩充,显著地提升了基于语谱图的CNN方法的识别效果。在此基础上,使用多种数据增强组合进一步地探索和优化模型性能,有效规避了在语音情绪识别场景中常见的数据稀疏问题。
(4)根据图像领域中Dense Block重复学习图片特征的思想,在数据集不变的情况下使用Dense Block结构对CNN模型进行优化改进,实验证明改进后的模型准确率较原始模型有一定提升。还尝试性地将数据增强和模型优化两种方式结合起来,进一步探索和研究如何提升语音情绪识别的效果。
(5)综合语谱图图像特征和传统声学特征,对这两种不同类型的互补性特征运用中间层特征拼接和决策层投票两种方式进行了多模态融合研究工作,有效提高了语音情绪识别率。
对语音情绪的识别源于声学的研究和统计,此前大量研究工作的重点都放在寻找新的声学特征以及对已有声学特征进行组合选择上,这些特征一般需要进行手工提取,所以需要一定的声学理论基础和大量的实验尝试,并且难以深入挖掘人们无法察觉的特征。而语谱图从时域、频域和能量上反映了大量的语音隐藏信息,近年来已成为语音情绪识别的新热点。卷积神经网络(CNN)作为一种自学习方法,能够深入挖掘图像的特征信息用于分类,在图像识别领域上表现优异。因此,本文选用CNN模型从语谱图方向入手来进行语音情绪识别的研究工作。
本文的主要研究工作如下:
(1)根据INTERSPEECH2009情感挑战赛特征集,提取CASIA汉语语音情绪数据库公开部分数据的声学特征,分别运用KNN和SVM方法进行语音情绪识别,得到了较好的识别效果。
(2)通过对音频数据预处理、绘制出语谱图后,运用CNN方法进行语音情绪识别,经过与基于声学特征的传统KNN和SVM识别方法对比,虽然不及传统声学特征的准确率,但仍然验证了基于语谱图的CNN方法的可行性。
(3)针对原始数据集样本较少的缺陷,采用离线图片增强的方法模拟加入语音样本对原始语音集进行了扩充,显著地提升了基于语谱图的CNN方法的识别效果。在此基础上,使用多种数据增强组合进一步地探索和优化模型性能,有效规避了在语音情绪识别场景中常见的数据稀疏问题。
(4)根据图像领域中Dense Block重复学习图片特征的思想,在数据集不变的情况下使用Dense Block结构对CNN模型进行优化改进,实验证明改进后的模型准确率较原始模型有一定提升。还尝试性地将数据增强和模型优化两种方式结合起来,进一步探索和研究如何提升语音情绪识别的效果。
(5)综合语谱图图像特征和传统声学特征,对这两种不同类型的互补性特征运用中间层特征拼接和决策层投票两种方式进行了多模态融合研究工作,有效提高了语音情绪识别率。