论文部分内容阅读
随着人工智能领域的发展日新月异,语音这一最直接便捷的交流通道,正受到越来越多的研究学者们的关注。语音中包含语句文本的字面意思和人的主观情感,只有让机器理解人类的感情,才能获得完整的语音信息,以能够实现人机之间和谐的语音交流。当下,远程互动教育、人性化的机器客服、心理辅导机器人等丰富多彩的应用在不断催促着语音情感识别领域的发展。但目前语音情感识别仍然面临诸多问题,主要是如何选择、构造对情感分类有效的语音特征,如何建立高性能的识别模型。本文先介绍了一种梯度提升树算法和岭回归的混合模型,再搭建了一套深度学习神经网络模型进行实验。本文先构建的是基于Light GBM的混合模型,使用open SMILE提取了Inter Speech国际语音情感挑战赛使用的8个特征集,在这8个特征集上分别训练一个Light GBM模型,然后将这些模型与岭回归混合,混合模型能够综合从不同特征集上学习到的信息,并通过岭回归来防止过拟合,从而获得了良好的识别性能。本文搭建CNN、LSTM和注意力机制混合的深度学习模型,把音色谱和MFCC、滚降频率等基于谱的启发性特征,通过CNN在每帧上抽取高级表征的时间序列,然后使用LSTM分析,之后通过注意力机制来利用LSTM中全时刻的状态信息,并专注于更具情绪分辨力的部分,从而提高了识别性能,本文通过设置3个对照实验,验证了注意力机制的效果。之后本文使用双向LSTM替换单向LSTM,由于双向LSTM能学习到上下文信息,对识别效果有一定提升。