基于Sinc-Transformer模型的原始语音情感识别

来源 :信号处理 | 被引量 : 0次 | 上传用户：yhz8668

【摘要】

：

【作者】

：

俞佳佳金赟马勇姜芳艽戴妍妍

【机构】

：

江苏师范大学物理与电子工程学院,江苏徐州221116;江苏师范大学物理与电子工程学院,江苏徐州221116;江苏师范大学科文学院,江苏徐州221116;江苏师范大学语言科学与艺术学院,江苏徐州2211

【出处】

：

信号处理

【发表日期】

：

2021年10期

【关键词】

：

语音情感 Transformer模型编码器 SincNet滤波器原始语音

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

考虑传统语音情感识别任务中,手动提取声学特征的繁琐性,本文针对原始语音信号提出一种Sinc-Transformer(SincNet Transformer)模型来进行语音情感识别任务.该模型同时具备SincNet层及Transformer模型编码器的优点,利用SincNet滤波器从原始语音波形中捕捉一些重要的窄带情感特征,使其整个网络结构在特征提取过程中具有指导性,从而完成原始语音信号的浅层特征提取工作;利用两层Transformer模型编码器进行二次处理,以提取包含全局上下文信息的深层特征向量.在交互式情感二元动作捕捉数据库(IEMOCAP)的四类情感分类中,实验结果表明本文提出的Sine-Transformer模型准确率与非加权平均召回率分别为64.14％和65.28％.同时与基线模型进行对比,所提模型能有效地提高语音情感识别性能.

其他文献

基于多任务学习的端到端维吾尔语语音识别

维吾尔语是黏着语,词汇量较多,容易出现未登录词问题并且属于低资源语言,导致维吾尔语的端到端语音识别模型性能较低.针对上述问题,该文提出了基于多任务学习的端到端维吾尔语语音识别模型,在编码器层使用Conformer并与链接时序分类(CTC)相连接,通过BPE-dropout方法形成鲁棒性更强的子词,以子词和字作为建模单元,同时进行多任务训练和解码.实验结果分析发现,子词作为建模单元能有效解决未登录词问题,多任务学习模型能在低资源环境下较充分利用数据,学习到丰富的时序语音特征信息,进一步提升模型的识别性能.在

期刊

Conformer链接时序分类多任务学习子词维吾尔语

基于Sinc-Transformer模型的原始语音情感识别

其他学术论文