【摘 要】
:
近年来随着深度学习技术的迅猛发展,诸多深度学习模型被应用于语音情感识别技术中。然而,这些深度学习模型存在对情感特征提取不充分、模型复杂度高、对时序特征关注度低等问题。针对以上问题,本文将构建基于多头注意力机制的双向门控深度可分离卷积神经网络模型(Bi-directional Gated Recurrent Unit Depth Separable Convolution based on Mult
论文部分内容阅读
近年来随着深度学习技术的迅猛发展,诸多深度学习模型被应用于语音情感识别技术中。然而,这些深度学习模型存在对情感特征提取不充分、模型复杂度高、对时序特征关注度低等问题。针对以上问题,本文将构建基于多头注意力机制的双向门控深度可分离卷积神经网络模型(Bi-directional Gated Recurrent Unit Depth Separable Convolution based on Multi-head attention,Multi-DSC-BiGRU),将该网络模型应用于语音信号的深层特征提取和识别中,并对该模型进行深入研究和详细分析。为提高语音信号的高频分量,降低无声段对原始语音信号的干扰,需要对语音信号进行预加重、分帧加窗、端点检测等预处理操作;在梅尔频率下对预处理后的语音信号进行倒谱分析,获得梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC),并用其表征当前语音信号的人工情感特征。上述处理过程为后续深度学习模型自动提取深层情感特征做数据准备工作,有效地解决了情感特征提取不充分的问题。构建了基于双向门控深度可分离卷积(Bi-directional Gated Recurrent Unit Depth Separable Convolution,DSC-BiGRU)的神经网络模型。为保证语音信号的时序特性,采用双向门控循环单元提取特征中的时序信息;采用深度可分离卷积模块减少模型参数,降低模型复杂度。在EMO-DB数据集上该模型的识别准确率为76.46%;在CASIA数据集上该模型的识别准确率较双向门控卷积神经网络模型(Bi-directional Gated Recurrent Unit Convolutional Neural Network,CNN-BiGRU)提高了1.19%,模型复杂度下降近77%。有效地解决了模型复杂度高的问题。构建Multi-DSC-BiGRU神经网络模型,该网络模型较自注意力机制引导的双向门控深度可分离卷积神经网络模型(Bi-directional Gated Recurrent Unit Depth Separable Convolution based on Self-attention,Self-DSC-BiGRU)而言能够更多的关注自身时序特征,提高时序特征中关键信息的表现能力。在EMO-DB数据集上该模型的识别准确率为80.73%;在CASIA数据集上Multi-DSC-BiGRU模型识别准确率较Self-DSC-BiGRU提高了2.07%,较DSC-BiGRU模型提高了4.45%。有效地解决了模型对时序特征关注度低的问题,提高了模型的识别性能。建立在线的语音情感识别平台。将Multi-DSC-BiGRU网络模型应用到该平台中,平台采用Browser/Server架构,通过浏览器的前端页面展示情况,实现对网站功能模块的测试,测试结果验证了本文所提出模型的优越性和语音情感识别平台的实用性。
其他文献
随着科技进步与社会发展,各个地区对于安防的建设都加大了投入,随着监控系统的需求日益增多,导致产生的视频数据量空前增加。但是随着工作量的增多,传统的监控对于不经常发生的突发事件尤其是带有暴力性质的突发事件无法做到实时检测,经常有信息滞后的情况发生。随着深度学习的发展,智能监控系统应运而生,因此本文结合实际情况,使用基于深度学习的方法,针对带有暴力性质的异常行为检测展开研究。首先,提出一种基于改进图卷
目前,中国经济从高速度增长时期转入高水平增长时期,消费已成为国民经济增长的驱动力和经济增长的主动力,5G所代表的新技术力量正在悄然的融入社会生活,5G也将成为中国新一轮技术革命与行业转型新的决定性推动力。5G等新技术力量应用将是中国商业银行供给侧结构性改革的重大契机,因此商业银行需要将5G技术力量深入融合到银行业务中去,以科技力量推动金融产业升级,构建5G+新服务生态和模式。本文在市场营销经典理论
随着新媒体技术普遍应用,动态展览海报以新颖的视觉效果成为展览海报新的设计形式之一。对当下动态展览海报进行分析,发现由于设计主题价值导向有误、策展方与设计者缺乏沟通等原因造成动态展览海报设计出现主题失焦现象,需要从信息传递准确、图形叙述生动、主题决定动势和考虑技术支持等方面提高主题聚焦能力。
作为“工业皇冠上的明珠”,航空发动机的可靠性是保证飞行器运行安全的关键,如果不能及时发现其运行中存在的潜在故障,而忽视对其进行检查和维修,不仅会加重其损伤的程度,影响其正常的运转,严重时甚至可能发生机毁人亡的事故,给生命和财产安全造成巨大损失。近些年来,深度学习技术在故障诊断的相关领域表现出了巨大的潜力,并且已经取得了很不错的成果。但是在实际生产环境下的航空发动机故障诊断仍然面临着巨大的挑战:(1
随着互联网技术的飞速发展,云计算、大数据、物联网和移动终端设备的普及,互联网上的各种数据层出不穷,引发了数据规模的爆炸式增长。普通用户接收信息的渠道也越来越多,被动地进入了内容过载和数据噪声泛滥的时代。人们在享受信息获取的便捷的同时也深受信息污染的困扰。基于这种情况,推荐系统就应运而生。目前应用最广泛的推荐算法是协同过滤算法。虽然协同过滤算法在多数场景下可以表现出不错的性能,但是其仍然遭受数据稀疏
T-S模糊系统具有精确表示或以任意精度逼近非线性系统的性质,该系统由一系列的隶属度函数和线性子系统组合构成,从而使大量线性控制理论应用在非线性系统的控制过程中。本文针对T-S模糊系统的控制综合问题,研究降低保守性和增强鲁棒性的分析方法,具体内容如下:首先,针对T-S模糊系统的鲁棒跟踪控制问题,在传统隶属度函数均匀分段方法的基础上,提出一种改进的隶属度函数非均匀分段方法以增强系统的鲁棒性。首先,基于
脊椎是人体的第二条生命线,支撑着身体的各器官正常运转,脊椎里的中枢神经更是遍布人体各经脉网络,是人体的脉络中心。所以一旦脊椎损伤就会影响神经的传递和运行,甚至引发人体相关组织疾病。为帮助医护人员和病患更便捷的观察真实脊椎模型,计算机的重建辅助诊断技术就显得尤为重要。脊椎的重建可视化结果是医生诊断病情的重要参照部分,在医学影像分析中也占有重要地位。因此,设计实现一个针对性强、用户交互便捷的基于脊椎C
当下世界格局急剧变化,形成了前所未有的复杂局面。这种由现实导致的未来不确定性,以及由此造成的思想文化上的边界、限制等障碍,使策展陷入了一种不安与焦虑之中。笔者通过对国内过往策展现象的梳理与总结,以及对个人策展实践的回顾,反思工作中的问题与困境,也对国内艺术策展生态环境存在的问题进行了反思与追问。
近些年,随着智能设备和通信技术的快速发展,移动群智感知作为物联网的关键组成部分,利用嵌入个人移动智能设备中的传感器,收集用户的感知数据来执行复杂的感知任务,如室内定位、智能城市管理和环境监测。移动群智感知网络具有运行成本低、可拓展性强和系统维护简单等特点,使得其更加易于实现对物联网世界的大面积覆盖,进而收集更多的感知数据,但与此同时也带来了一些新的挑战。用户在执行移动群智感知任务,并向服务提供商发
随着人类对星球探测的不断深入,各种复杂地形如沙丘、陨石坑等也将成为重要的探测目标,这对星球探测机器人的移动性能提出了巨大挑战。轮步式移动机器人一般采用主动悬架或多自由度轮-腿复合式机械结构,可通过蠕动实现大角度爬坡和脱陷等,因此,具备较强的多地形适应能力和移动能力,被广泛用于星球探测中。然而,轮步式机器人特殊的结构和较多的关节自由度增大了机器人蠕动控制的难度。因此,对各关节进行运动规划和协调控制研