论文部分内容阅读
语音信号是人类传递信息表达情感的主要途径之一,其对人机交互技术研究的重要性可见一斑。现阶段将语音信号转换为文本信息输出的语音识别技术已非常成熟,其商业应用已得到普及,例如科大讯飞智能语音输入法。然而,语音情感识别的研究一直还没有有效应用。随着虚拟现实技术与增强现实技术的迅速发展,传统的人机交互已经不能满足人们日益增长的对更自然、更便捷人机交互的迫切需求。将语音情感识别与虚拟环境交互技术相结合不仅体现了语音情感的实用性,同样提升了虚拟环境交互的便捷性和自然性。本文根据中文语音信号与其他语种语音信号的区别,对中文语音情感识别方法展开研究,对语音情感识别相关算法进行测试,并对其训练识别模型进行改进;在虚拟环境中通过设计肢体动作将语音情感状态可视化反馈,以完成基于中文语音情感识别的虚拟环境自然交互系统应用。本文主要研究内容如下:1.研究了中文语音情感特征并验证其情感描述性。针对中文语音信号特点,使用MFCC特征、ZCR特征、短时能量特征对CASIA数据库中的语料进行情感描述,利用支持向量机SVM进行识别分类,并使用开放的中文语音情感数据库,验证该特征对情感状态描述的有效性与可行性。2.研究了基于深度学习的中文语音情感识别方法,提出了融合全局特征与局部特征的卷积-长短时记忆神经网络(ConvLSTM)的语音情感识别模型。首先,采用一维卷积神经网络对情感特征集进行特征训练学习,将学习后的特征输入到Softmax分类器中,对语音信号中所包含的情感状态进行识别;其次,采用长短时记忆神经网络对前文情感特征进行特征学习,将学习后的特征输入到Softmax中识别语音情感状态输出识别结果;最后,对比分析实验结果,提出融合全局特征与局部特征的ConvLSTM学习网络,将该网络训练学习到的语音情感特征,输入到Softmax分类器中,识别语音情感状态并输出识别结果;通过对比分析证明ConvLSTM模型具备一定的有效性。3.设计搭建基于中文语音情感识别的虚拟环境交互系统。借助肢体动作实现虚拟环境中语音情感的可视化,并通过设计自主虚拟人实现虚拟化身情感交互动作的反馈,完成基于语音情感识别的虚拟环境交互系统的测试,验证了本文模型的有效性与可行性。