基于特征选择和优化的语音情感识别研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:lilinli2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的发展,人们对机器的智能化研究更加深入,使机器具备和人一样的情感和思维是人机交互的重要难题。语音情感识别是情感识别领域中很重要的分支,在科学研究和商业应用这两个方面都存在很大的潜在价值。根据语音情感识别的科研与商业需要,本文基于特征选择和优化研究了语音情感识别这个课题。具体研究内容如下:提取语音中与情感相关的特征。包括四个韵律学特征:语速、基音频率、短时平均能量和短时平均过零率,一个音质特征:共振峰频率,以及一个频谱相关特征:梅尔频率倒谱系数。并获取了上述特征的统计参数。研究了基于随机森林的语音情感特征选择算法。根据提取到的语音情感特征,研究了几种情感相关特征对不同情感语音的识别准确率。根据基于随机森林的特征选择算法,得到四种情感语音的最优特征组合,对四种情感两两组合获得的六种情感组合,针对每种情感组合得到其最优的特征组合。研究了基于卷积神经网络的语音情感识别算法。首先,将MFCC与随机森林特征选择得到的特征组合起来作为输入特征,根据输入特征尺寸构建卷积神经网络模型,然后训练卷积神经网络,最终得到不同情感类别的语音的情感识别准确率。实验结果表明:使用卷积神经网络作为最终分类器时,本文的改进方法对四种情感语音的情感识别准确率相对于仅使用MFCC特征的方法提升了3.68%;当对四种情感两两组合时,语音情感识别率在78.80%到98.70%之间。本文的方法的结果均优于仅使用MFCC特征的方法。研究了基于长短时记忆网络的语音情感识别算法。首先,将MFCC与随机森林特征选择得到的特征组合起来作为输入特征,构建长短时记忆网络模型,然后训练长短时记忆网络,最终对不同情感类别的语音进行识别。实验结果表明:使用长短时记忆网络作为最终分类器时,本文的改进方法对四种情感语音的情感识别准确率相对于仅使用MFCC特征的方法提升了1.14%;当对四种情感两两组合时,语音情感识别率在60.38%到87.14%之间。本文的方法的结果均优于仅使用MFCC特征的方法。本文的研究成果可应用于人机交互、医学诊断和刑事侦查等多个方面。
其他文献
文章主要应用概率中的一些基本知识讨论了几个关于Ramsey数的定理并对它们进行了推广。
目的:分析不同的影响因素对上颌窦底提升术后种植体存留率的影响及其作用。方法:收集西安交通大学口腔医院种植科2003-11-2016-05间,行上颌窦底提升术种植患者的临床资料,定
布里渊光时域反射计结构的布里渊散射分布式光纤传感器检测的是自发散射光,信号非常微弱,而且频带在几十兆赫兹以上,难以应用普通相干解调方法。针对传感散射光信号特点,提出
目的:探讨花粉症与中药制剂之间的相关性.方法:对28例中药制剂诱发过敏症状的患者,进行花粉变应原检测,并应用EL-ASE法测定血清中总IgE和IgG4的含量. 结果:28例患者夏秋季花粉、
语境在认知语用学中变为认知语境并出现认知语境推理的概念。本文作者从认知语境操作的基本单位,即知识草案和心理图示出发,着手研究其三个语用范畴和推理过程,从而论证认知
北宋在结束唐末五代割据纷争基础上重建的统一王朝,赵匡胤在开国后为矫治前代将帅拥兵自重、割据分裂之弊,进行了军制改革。他采取了兵权集中于皇帝,臣僚分揽军政,中央萃集精
法治是正常法治与非常法治之和。中国的非常法治必须是一个以宪法所规定的国家紧急权力制度为根本,以法律为骨干,以行政法规、地方性法规,军事法规,国务院部门规章、地方政府规章
目的 探讨在脊柱后路俯卧位手术中应用碘伏预防术中压力性溃疡的效果。 方法 将100例手术患者按住院号的单双号进行分组,其中单数为对照组(49例)、双数为观察组(51例)。对摆俯卧
在当前时代背景下,"卓越工程师"培养计划是人才培养模式的大势所趋。本文以福州大学机械设计制造及自动化专业为例,结合近几年本科毕业设计教学实践,分析了卓越工程师背景下机
1 临床资料 入院情况:患者男,48岁,农民。因“咳嗽、咳痰1月余”于2013年3月13日入院。患者于1个多月前开始出现咳嗽、咳痰,咳较多青黄色脓痰,