基于情感特征信息增强的语音情感识别研究

来源 :东南大学 | 被引量 : 4次 | 上传用户:raulhanlin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音情感识别(SER;Speech Emotion Recognition)是当前研究的热点之一,旨在通过语音信号来估计情感状态的情况.语音情感识别主要的应用集中于人机交互(HCI;Human-Computer Interaction)、自闭症或抑郁症的初步诊断、极限环境下负面情绪的监测等.然而,由于适用于语音情感识别的常用特征集(paralinguistic特征)通常可能含有一些除情感识别外更适合其他任务的成分,所以在大部分原始特征集上,直接得到对于识别语音情感有效的特征较为困难.因此,本文将基于情感特征信息增强的语音情感识别作为关键问题进行研究.基于情感特征信息增强的方法通过综合考虑训练样本的信息(如,特征、标签等),构建训练学习模型.接着,保持并强化该模型中的关键情感特性,并将其用于对样本进行特征重构,生成新的特征.这些经过训练学习的特征更适用于识别或估计等目标任务,从而使系统性能得到提升.但是,由于在特征集中常常存在着大量不利于识别情感成分的干扰因素,所以不同于特征信息增强中其他一些研究较多的应用课题(如,人脸识别、说话人识别、语音识别等),解决语音信号中的情感识别问题有着较大的难度.因此,和特征信息增强相关的已有工作并不一定能够保证有效地识别语音中的情感成分,尤其在进一步实用化研究方面.本文中着重研究了作为特性保持思想细化研究课题之一的子空间学习方法,及其衍生出的各种结构,以强化语音中情感特征信息的表达.通过充分的实验验证,所提出的一系列算法能够较有效地解决语音情感识别问题.本文的主要贡献如下所述:(1)本文在多核子空间学习的结构下提出使用多尺度核,以有效地识别语音中的情感成分.算法在使用Fisher判别嵌入图的同时,针对语音情感识别提出多尺度Gaussian核,用于构建多核学习(MKL;Multiple Kernel Learning)中Gram阵的最优化线性组合.为评价所提出的 MS-KFDA(Multiscale-Kernel Fisher Discriminant Analysis)算法的识别性能,本文在多个语音情感数据库上,使用openSMILE中不同公开特征集进行了大量实验验证.实验结果表明,所提出的方法相比于常用线性维数约简方法以及单核方法,具有更好的识别性能.(2)进而,本文提出了一个使用局部惩罚判别分析的多尺度核学习方法,即MS-KLPDA(Multiscale-Kernel Locally Penalised Discriminant Analysis),并将所提出的算法用于识别语音中的情感成分.在提出的方法中,加入局部惩罚判别分析项来控制边界样本对的权重,同时使用多尺度核学习的结构.通过语音情感数据库上一系列实验证明,所提出的MS-KLPDA方法在识别语音中的情感成分时,识别性能高于MS-KFDA以及一些常用算法.(3)本文针对多核子空间学习提出了一个二维的统一框架结构,该结构在多核学习的基础上提供了多个不含有非负约束的线性组合,将多核学习和二维子空间学习相结合,这样在学习过程中保有了更多的信息.针对语音情感识别的应用背景,在此框架下使用判别嵌入图,提出了一个新算法,即广义多核判别分析(GMKDA;Generalised Multiple Kernel Discriminant Analysis),算法中同样采用所提出框架中提出的附加多核线性组合映射方向.多个基本的语音情感数据库上的实验结果表明,本文所提出的方法与一些常用方法以及子空间学习方法相比,能够针对语音情感识别的应用需求,取得更好的识别性能.(4)本文联系极限学习机(ELM;Extreme Learning Machine)和子空间学习,提出了统一的广义谱回归(GSR;Generalised Spectral Regression)框架,涵盖了图嵌入(GE;Graph Em-bedding)框架下谱回归(SR;Spectral Regression)的子空间学习,以及 ELM 方法.本文所提出的框架包括三个模块:数据映射、图分解、回归.在数据映射阶段,可以使用不同的映射方式提供对于样本不同视角的观测;在图分解阶段,设计得到的嵌入图通过谱分解求得虚拟坐标,这样就提供了一种能够更好描述数据结构的途径;最后,在回归阶段,通过回归运算将虚拟坐标同数据映射联系起来,从而完成对低维特征的学习.由该框架,提出了几种新的维数约简方法用于解决computational paralinguistics问题(如语音情感识别等).之后,本文将一些先进的算法同所提出的方法在多个语音情感数据库上进行了详细的对比实验.(5)本文提出了基于人脸局部表情的双模态情感识别方法,使用视频信号中的人脸局部表情信息进行情感特征信息增强,并结合语音信号中的paralinguistic特征,进行特征层融合来对情感状态进行分类.实验结果表明,提出的双模态情感识别方法较同条件下的单模态方法,在情感状态识别性能方面有着明显的提升.
其他文献
随着互联网和移动互联网的普及,电子商务作为一种全新的商业运作模式和社会系统工程,其发展已涉及银行、保险、税务、交通、海关等部门以及政府管理职能的方方面面。以客户为
目的 探讨脉压与高血压病靶器官损害的关系。方法 回顾性调查近 5年住我院未治疗高血压病患者 696例(男 3 87例 ,女 3 0 9例 ) ,按平均压 <10 7mmHg和≥ 10 7mmHg分为二组
2008年,博物馆的免费开放政策提出并实施,是促进博物馆行业发展的一项重要举措。本文以免费开放政策为研究对象,从政策的制定过程、本体内容、外部实施等几方面分析其实施至
目的探索高血压与多种代谢异常的关系。方法对已开发的"高血压防治网络管理系统"入网的高血压患者1459例的资料进行分析。结果高血压合并各种代谢异常的有1048例占71.8%,其中
目的 了解武警某部特种分队战士的饮食状况 ,提出饮食营养建议 ,保障官兵身体健康 ,提高战斗力。方法 采用 3d饮食称量法进行饮食调查 ,应用生活观察法进行 2 4h能量消耗量
目的:探讨股骨头缺血坏死(ANFH)的早期MRI表现,采取及时治疗方法,评估临床治疗价值。方法:41例ANFH患者中,Ⅳ期16例患者行股骨头置换术,对25例Ⅰ期~Ⅲ期行患者保留股骨头治疗
<正>戏剧和戏剧之外的其他舞台演出不可或缺的重要内容便是舞台美术,新时期舞台美术逐渐成为评判一场演出是否成功的重要因素,故做好舞台美术设计至关重要。巧妙配置音效、灯
[目的]观察温阳降浊汤联合硝苯地平治疗老年高血压疗效。[方法]使用随机平行对照方法,将92例门诊患者按就诊顺序编号简单随机分为两组。对照组46例硝苯地平缓释片20mg/次,2次
目的探讨靶剂量比索洛尔治疗对原发性高血压伴心力衰竭患者心脏重构和心功能的影响,及与血压、血管内皮生长因子(VEGF)、高敏C反应蛋白(hsCRP)的相关性。方法入选163例原发性
党的十九大报告明确指出,“我国经济已由高速增长阶段转向高质量发展阶段,正处在转变发展方式、优化经济结构、转换增长动力的攻关期”,为当前和今后一个时期我国经济发展指明了
报纸