论文部分内容阅读
语音作为人与人沟通和情感传递的重要媒介,一直以来都是人工智能研究的重要方向。在传统的情感识别系统研究中,如何提取更具有判别性的情感相关特征一直是研究界备受关注的内容。目前,系统特征参数的选取具有一定的盲目性,系统操作复杂度和时间复杂度较高。尤其在一些复杂场景识别,比如:大规模语音数据集、情绪类别复杂的场景等,不能有效描述语音数据复杂的空间分布,对于语音的上下文信息利用也极其有限,传统的语音情感识别方法已经不能很好的解决以上问题。神经网络模型作为一种可以“自学习”的模型,被证明可以有效的解决特征提取分类的问题。本文针对传统语音情感特征学习方法的不足,以注意力机制原理为基础,提出了基于改进注意力机制(Improved Attention Mechanism,IAM)的深度学习情感识别优化算法,该算法主要提出了一种改进的注意力机制模型AItti(Attention Itti);然后,针对AItti模型全局特征丢失问题,提出了基于改进空间权重的深度学习情感识别优化算法,该算法以AItti模型为基础进一步提出了一种约束型空间权重网络(Constraint-Space-Weight Networks,CSWNet),具体研究内容如下:(1)提出了基于改进注意力机制的深度学习情感识别优化算法算法在语谱图技术的基础上将图像提取模型的注意力机制(Attention Mechanism,AM)与声学特征特性相结合,提出了一种新型特征提取模型AItti,从而实现语音情感相关特征提取。该方法包括以下步骤:将语音信号经过预处理后提取语谱图;然后经过提出的AItti获取显著图:它主要经过高斯金字塔和局部二值模型(Local Binary Pattern,LBP)算法,提取出四种注意图,再通过中央周边差及听觉敏感度加权运算获取最终的显著图;将显著图通过微调的混合神经网络获取一段音频最终的情感特征表示,结合已标注的标签进行有监督训练,最终通过分类器获得最终评分结果。在自然数据库FAU-AEC上进行七类情感分类评估,利用该方法学到的情感相关特征识别率明显高于同等条件下的传统声学特征及基准模型。对模型进行性能评估,本算法能够很好地增加类间距离,提高系统识别率。(2)提出了基于改进空间权重网络的深度学习情感识别优化算法基于AItti提取出的特征相对传统全局特征来说为情感强相关特征(Strong Emotion Feature,SEF),但经过模型处理后的语谱图会丢失一部分全局信息,这部分特征可能对情感识别具有一定影响。据此,论文提出基于改进空间权重结构深度学习情感识别优化算法。该方法的主要步骤是:将语谱图通过混合神经网络的前两个单元提取初级特征;通过构建CSWNet结构获取权重特征,主要经过特征空间变换及闸值判断,从空间维度角度赋予SEF特征相近特征高权重,其它特征低权重,得到标定权重特征;最后将标定的权重特征通过微调的混合神经网络之后的单元获取一段音频最终的深度情感特征表示,结合已标注的标签进行有监督训练,通过分类器获得最终评分结果。在自然数据库FAU-AEC和柏林德语数据库(EMO-DB)进行试验证明了本模型有效性和良好的泛化性。对模型的复杂度进行和性能进行评估,在少量增加模型复杂度的情况下,模型的识别率和情感区分能力都有所提升。