中文语音情感识别方法研究

来源 :重庆邮电大学 | 被引量 : 0次 | 上传用户:taicangliliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音信号是人类传递信息表达情感的主要途径之一,其对人机交互技术研究的重要性可见一斑。现阶段将语音信号转换为文本信息输出的语音识别技术已非常成熟,其商业应用已得到普及,例如科大讯飞智能语音输入法。然而,语音情感识别的研究一直还没有有效应用。随着虚拟现实技术与增强现实技术的迅速发展,传统的人机交互已经不能满足人们日益增长的对更自然、更便捷人机交互的迫切需求。将语音情感识别与虚拟环境交互技术相结合不仅体现了语音情感的实用性,同样提升了虚拟环境交互的便捷性和自然性。本文根据中文语音信号与其他语种语音信号的区别,对中文语音情感识别方法展开研究,对语音情感识别相关算法进行测试,并对其训练识别模型进行改进;在虚拟环境中通过设计肢体动作将语音情感状态可视化反馈,以完成基于中文语音情感识别的虚拟环境自然交互系统应用。本文主要研究内容如下:1.研究了中文语音情感特征并验证其情感描述性。针对中文语音信号特点,使用MFCC特征、ZCR特征、短时能量特征对CASIA数据库中的语料进行情感描述,利用支持向量机SVM进行识别分类,并使用开放的中文语音情感数据库,验证该特征对情感状态描述的有效性与可行性。2.研究了基于深度学习的中文语音情感识别方法,提出了融合全局特征与局部特征的卷积-长短时记忆神经网络(ConvLSTM)的语音情感识别模型。首先,采用一维卷积神经网络对情感特征集进行特征训练学习,将学习后的特征输入到Softmax分类器中,对语音信号中所包含的情感状态进行识别;其次,采用长短时记忆神经网络对前文情感特征进行特征学习,将学习后的特征输入到Softmax中识别语音情感状态输出识别结果;最后,对比分析实验结果,提出融合全局特征与局部特征的ConvLSTM学习网络,将该网络训练学习到的语音情感特征,输入到Softmax分类器中,识别语音情感状态并输出识别结果;通过对比分析证明ConvLSTM模型具备一定的有效性。3.设计搭建基于中文语音情感识别的虚拟环境交互系统。借助肢体动作实现虚拟环境中语音情感的可视化,并通过设计自主虚拟人实现虚拟化身情感交互动作的反馈,完成基于语音情感识别的虚拟环境交互系统的测试,验证了本文模型的有效性与可行性。
其他文献
目的通过对516例血清同型半胱氨酸(Hcy)测定结果的临床分析,探讨Hcy测定的临床意义。方法应用日立7600-020型全自动生化分析仪测定516例住院及门诊患者血清Hcy浓度。结果 60
研究移动机器人在已知静态环境下路径规划问题,在避障环境下寻求最优路径。针对蚁群算法搜索时间长、易陷入局部最优等缺陷,导致实时处理困难,且路径准确度低、可跟踪性差不
教育公平是人类社会追求的理想,是和谐社会的基础。高等教育公平作为社会公平的重要组成部分,在构建和谐社会中具有不可替代的基础性推动作用。而目前我国的高等教育公平状况
<正>护士职业道德是指在护理专业这一特定范围内的职业道德,是社会道德在护理工作中的具体体现[1]。它是护士做好本职工作的行动指南和行为准则,也是落实各项规章制度,提高护
研究电厂锅炉温度优化控制问题,由于温度的稳定性受到多种因素的影响,所以温度控制系统是一个具有时滞性、非线性和时变性的复杂系统,传统PID控制和模糊控制难以建立精确的数
研究寻的制导优化控制问题,针对传统单一传感器导引不能满足性能要求,提出采用多传感器复合制导。航迹融合是多传感器数据融合中一个非常重要的方面。由于公共过程噪声的原因
保持党的纯洁性是巩固党的执政基础、实现党和国家兴旺发达、长治久安的需要。党的纯洁性主要包括党员干部思想纯洁、队伍纯洁、作风纯洁、清正廉洁。中国共产党保持纯洁性的
目的探讨EB病毒Rta蛋白抗体IgG(Rta/IgG)抗体单项和联合检测VCA-IgA、EA-IgA,在鼻咽癌血清学诊断及筛查的应用价值。方法收集449例未经治疗的鼻咽癌患者血清,选择有相似症状
学生进入中学后,科目增加、内容拓宽、知识深化,尤其是数学从具体发展到抽象,从文字发展到符号、图形甚至动态问题,对学生认知的要求发生了根本的变化。加之部分学生还未脱离在教