基于深度学习的语音情感识别技术研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:yymmttjjjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音是人类最基本、最重要、最快捷的信息交流传播方式。语音中不仅包含着说话者表达的内容,还包含着说话者丰富情感信息。随着大数据时代的到来,语音情感识别成为非常活跃的研究领域,在人机交互系统方面具有潜在的应用。语音情感识别作为人机交互系统的重要组成部分,其目的是通过直接的语音交流与机器形成情感互动。但是,由于情感的复杂多样性,语音情感识别是一项非常具有挑战性的工作。在语音情感识别研究中,研究主要内容是提取判别性特征和搭建高性能分类模型。本文根据这两项研究内容展开研究,提出了基于加权特征融合算法的深度卷积神经网络(DCNN)模型以及基于改进的遗传模拟退火算法(GSA)优化语音情感识别系统。首先,针对分析语音情感识别技术的局限性和不足之处,提出了本文的研究内容,并介绍相关理论知识,主要包括情感语料库、语音信号预处理技术、特征参数的提取方法、特征降维策略以及常用的分类模型,为后续深入的研究提供技术支撑。其次,传统的声学特征参数只能体现语音情感信号在时域或者频率上的特点,不能够识别情感中微小的差距,而在语音情感识别研究中,具有高度相关性的特征是决定情感识别性能的因素之一。因此,在典型特征基础上,主要包括梅尔频率倒谱系数(MFCC)、对数能量系数(LFPC)、以及其一阶、二阶差分系数、TEO算子和语谱图等,本文提出一种加权系数融合特征算法,使这些特征性能互补,将其融合得到横轴与持续时间相关,纵轴与频率相关的二维三通道声谱图。将经过处理的声谱图输入到DCNN中,进一步挖掘更深层特征,将深浅层特征融合在一起,得到更具有表现力的特征参数,利用Softmax分类器实现情感分类。通过实验仿真发现,在EMO-DB语料库中,所提出的加权融合特征较目前广泛使用的语谱图特征识别结果提高了9.05%,较其他特征提高的平均值达到23.5%;在IEMOCAP语料库中,较其他特征提高的识别率平均值为10.76%。最后,传统的DCNN学习方法主要采用梯度下降算法进行学习,该算法性能的好坏受卷积神经网络的初始权重的影响较大。对于DCNN训练学习,实质上就是对求解权重的学习。为了解决这一问题,本文结合遗传算法(GA)和模拟退火算法(SA)的优点对其优化,并提出一种温度可变系数方法对SA进行改进。实验结果表明,在EMO-DB语料库中,改进后的算法比原算法的平均情感识别率提高了6.5%;在IEMOCAP语料库中,平均情感识别率提高了9.89%。
其他文献
协作通信技术因其可靠的传输特性成为近年来被广泛研究的领域之一。缓存辅助中继系统的提出打破了传统协作通信中瓶颈链路的限制。与具有固定传输标准的传统中继相比,基于缓冲辅助中继的自适应链路选择协议能够获得更好的性能增益。但是,大多数现有的链路选择策略都是基于理想的信道状态信息(Channel State Information,CSI)设计的,而信道估计本身是非常复杂且较难实现的。此外,在一些复杂的场景
2004年石墨烯的成功制备,开启了石墨烯的黄金时代。随着研究的深入,二维材料展现出各种令人惊喜的性能,激发了科研人员的兴趣,开始探寻其他类似石墨烯的二维材料,磷烯、硼烯、锗烯、硅烯等单元素二维材料进入研究领域。本文选择石墨烯和硅烯作为研究对象,对其电荷输运性质进行研究。本文利用紧束缚近似理论结合格林函数,建立研究模型,利用Kwant软件对材料进行模拟运算,得到系统的能带、电导、态密度等数值结果,并
现代通信技术以无线通信为主,在过去数十年间飞速发展,推动着社会往信息共享和高效互联的方向不断迈进。受智能移动电子产品的影响,移动通信逐渐成为人们生活中通信方式的主流,从最初仅支持语音通话到目前能够满足各类数据传输业务,经过了几代的变迁。当前全球已经进入第五代移动通信(5G)时代,能够满足人们对高速率、低时延、大容量等性能的需求。低噪声放大器作为射频通信系统前端中的重要组成部分,5G移动通信的应用对
电子鼻是一种由传感器阵列和适当的气味识别算法组成的仪器,已广泛应用于食品安全检测、航天飞机和医学诊断等气味检测相关的各行各业中,并发挥着重要的作用。如何设计更高效且低成本的集成电子鼻系统是气味识别的研究热点之一。目前,集成电子鼻设计中,将原本普通电子鼻的传感器阵列模块和识别算法模块两个独立硬件和软件模块集成为一体。这种设计相较于普通电子鼻系统优势明显,避免识别算法使用额外的计算机硬件,降低了电子鼻
如今毫米波雷达被广泛应用于无人驾驶系统中。随着毫米波雷达技术的发展,车载毫米波雷达的分辨率越来越高,从同一目标处获得的数据量以及目标数据集的数据量也随之增多。同一目标的数据量增多能够让系统更准确地分析目标。但目标数据集数据量的增多会导致无人驾驶系统对目标数量的判断能力受到影响,因此需要利用合适的聚类算法处理车载毫米波雷达的目标数据集来得到正确的目标数量。车载毫米波雷达目标数据集的数据密度不均匀,并
在数据挖掘领域,聚类作为一种重要的数据分析方法引起广泛关注,但数据规模不断扩大,数据结构日益复杂,维数也越来越高,很难使用传统的谱聚类技术对其进行分析,子空间聚类是针对高维环境下的信息进行处理的常用方法,可以在其中准确找到与数据子集相对应的低维子空间,去除无关信息对聚类结果的干扰。现有的自适应图正则化的低秩表示方法虽然可以对数据自适应的进行学习,同时保留数据的全局和局部信息,令得到的系数矩阵具有清
随着集成电路产业的快速发展,物联网系统功耗大和电池续航时间不足的矛盾也越来越突显,成为低功耗应用开发亟需攻克的难点。太阳能电池作为绿色可再生能源中的典型代表,因其成本低、资源丰富且能量密度大而得到广泛应用。另外,负载直接连接到太阳能电池通常并不能高效率地捕获能量。能量采集器能匹配能量源的输出阻抗,使能量捕获效率最大化,达到最大功率点跟踪的目的,设计基于MPPT的能量采集器具有重要意义。本文分析了太
随着社会对智能产品依赖越来越强,其对产品的功能要求也越来越高。芯片作为产品设备中重要组成部分之一,目前主要面临着两大挑战,工艺技术无法继续往前和芯片无法兼备高性能及低功耗要求。而电压基准源作为芯片中模拟集成电路设计里的基础模块,与各个电路模块乃至电路的整体性能相辅相成,在电路中占据着重要位置。因此,设计一种高性能低功耗的电压基准源电路结构对今后的发展尤其重要。本论文设计了两种基准源电路,分别为全C
聚对苯二甲酸丁二醇酯(PBT)由于其自身优异的性能,被广泛应用于各行各业,但其回收利用率低,不符合现在低碳和环保的理念,因此研究易回收利用的高性能PBT复合材料一个非常具有研究价值的课题。类玻璃高分子(vitrimer)是一种具有动态交联网络结构的新型聚合物,在高温条件下,动态交联网络快速反应使网络的拓扑结构发生改变和重排,从而使得材料具有可重塑性和可再加工性能,这种性能使得vitrimer材料的
随着深度卷积神经网络(VGGNet、Res Net、Densenet等等)的不断发展,计算机在处理常见的粗粒度图像分类的效果已经越来越准确了,在大量的分类任务中甚至已经超过了人工的分类的精度,继而很多学者和研究人员逐渐地将研究的目光投向了细粒度图像分类任务。然而直接将这些深度神经网络用于细粒度图像的分类并不能得到很好的效果,主要是因为这些细粒度的图像之间是具有很多相同的地方,直接使用这些深度卷积神