【摘 要】
:
语音情感识别在人机交互领域具有广泛的应用场景,例如呼叫中心、移动服务等。在实际应用中,语音情感的复杂性,不仅使得需要采用高维的特征来对每个状态进行刻画,而且也令数据标注的代价高昂且费时。因此,学习具有判别性的低维语音情感特征表示,就成为语音情感识别研究的关注焦点之一。半监督语音情感特征学习作为一种主流的方法,其大体可分为两类:一是对单一来源的数据,通过利用分布一致的大量无标注数据与少量标注数据进行
【基金项目】
:
复杂声学环境下声学事件检测与音频场景识别方法研究.国家自然科学基金联合基金项目.课题编号:U1736210; 面向自然口语交互的情境化语义理解和多轮对话交互管理技术.国家重点研发计划. 课题编号:2017YFB1002102;
论文部分内容阅读
语音情感识别在人机交互领域具有广泛的应用场景,例如呼叫中心、移动服务等。在实际应用中,语音情感的复杂性,不仅使得需要采用高维的特征来对每个状态进行刻画,而且也令数据标注的代价高昂且费时。因此,学习具有判别性的低维语音情感特征表示,就成为语音情感识别研究的关注焦点之一。半监督语音情感特征学习作为一种主流的方法,其大体可分为两类:一是对单一来源的数据,通过利用分布一致的大量无标注数据与少量标注数据进行半监督学习。二是对多个来源的数据,通过利用无标注数据以及与之分布不一致的标注数据进行半监督学习。然而,这些方法在特征表示分布一致性的学习方面缺少深入研究,导致所学特征的判别能力不足。基于以上分析,本文围绕数据来源及分布是否一致的情况来研究半监督语音情感特征学习方法。通过子空间学习的方式,减少无关因素对语音情感特征分布一致性的影响,从而改善特征表示的判别能力。本文主要研究内容与创新工作如下:(1)针对单一数据源分布一致时的情况,试图通过将标注数据从原始特征空间有监督地投影到其稀疏子空间中,来寻找与标签信息最相关的语音情感特征表示。同时,采用既能根据不同数据分布进行灵活调整,又能对噪声和异常数据鲁棒的度量方法,来挖掘数据的真实内在结构,并学习能保留该结构以及分布一致性的语音情感特征表示。进而提出基于单源数据稀疏子空间表示分布一致性的特征学习方法。此外,还提出了一种改进的优化求解算法,以抑制传统算法在迭代过程中的振荡行为。实验结果表明,所提出的方法能够有效提升语音情感识别系统在单源数据上的性能。(2)针对多数据源分布不一致但其标签空间一致时的情况,试图借助半监督非负矩阵分解方法来为多源数据学习一个潜在的公共低秩子空间,并将标签信息整合到其对应的子空间表示中。同时,利用最大平均差异准则和局部结构保留正则,来约束多源数据公共子空间表示的边缘分布一致性。此外,为了进一步消除多源数据之间的分布差异,还提出基于自学习的条件分布估计方法,并借助最大平均差异准则来约束其公共子空间表示的条件分布一致性。进而提出基于多源数据公共子空间表示分布一致性的特征学习方法。实验结果表明,所提出的方法能够利用多源数据来改善语音情感识别的性能。(3)在基于多源数据公共子空间表示分布一致性的特征学习方法基础上,针对其无法利用标签预测与分布一致性学习之间相互促进关系的问题,试图借助标签传递的方法,将二者整合到联合学习模型中,以更好地消除多源数据之间的联合分布差异。同时,为了更好地学习具有情感判别性的特征表示,利用正交约束的半监督非负矩阵分解方法,从多源数据的公共子空间中剔除各自的个性成分,从而获得它们的共享子空间,并将标注数据的判别信息整合到该子空间中。进而提出基于多源数据共享子空间表示分布一致性的特征学习方法。实验结果表明,所提出的方法能进一步改善多源数据语音情感识别的性能。(4)针对多数据源分布及其标签空间均不一致的情况,考虑从两方面来为其学习具有联合分布一致性的子空间。首先,针对如何识别出未标注语音情感数据中已知类和未知类的问题,试图在由半监督非负矩阵分解方法得到的公共子空间中,对分类函数在未标注数据上的泛化误差进行分析,并据此得到能分离已知类和未知类数据的开集(标签空间不一致)判别子空间。同时,利用最大平均差异准则和局部结构保留正则,来约束多源数据已知类子空间表示的联合分布一致性。进而提出基于多源数据开集判别子空间表示分布一致性的特征学习方法,所学习的语音情感特征不仅具备区分已知类和未知类的能力,还能将判别信息从标注数据迁移到无标注数据上。实验结果表明,所提出的方法能够利用开集多源数据来改善语音情感识别的性能。
其他文献
二维过渡金属硫化物是继石墨烯之后发现的一类新奇的层状材料,具有优异的光学、电学和催化等性质。由于二维过渡金属硫化物具有可见光范围内带隙可调和原子层厚度的结构等特点,而且不易受短沟道效应的影响,在下一代纳米电子器件和光电子学等领域具有广阔的应用前景。尽管二维过渡金属硫化物在物性研究和原型器件研究中已经取得了一定的进展,但是建立完备的物理模型和实现二维过渡金属硫化物的广泛应用仍存在诸多挑战。在物性研究
心脏疾病危害人类健康,是造成人类死亡的主要原因之一,长期以来,心脏疾病研究一直是医学界的重要课题。因为非侵入、经济、便捷灵活的特点,心电图成为了临床上重要的常规检查手段。但是,考虑到心电图的个体性差异和心脏疾病信息分析的复杂性,现有的心律失常自动分类算法在分类准确率等方面的表现并不理想,无法满足大量心电数据辅助诊断的需求。此外,大量重复的心电图识别工作还容易使医生产生疲劳,引发误诊。近年来,随着大
按照《巴黎协定》规定,联合国环境规划署要求全球碳排放量在2020年至2030年必须以每年7.6%的水平下降,否则气候引发的自然灾害发生率和破坏率会大幅增长。减少船舶能源消耗,提高能源使用率,降低碳排放量是目前船舶行业发展的一个重要发展方向和研究目标。随着复合材料螺旋桨的应用越来越广,复合材料螺旋桨的节能减排成为当前研究的重点和难点。桨-舵匹配是一种易实现的节能措施。复合材料的可设计性和桨-舵匹配为
历次震后调查均发现,严格按照现行抗震规范设计的钢筋混凝土(Reinforced Concrete,RC)框架结构,能够实现“大震不倒”的抗震设计目标,但却常常遭受难以修复的严重破坏,在震区造成大量“站立的废墟”,带来难以估量的经济损失。预制预应力自复位(Precast/Prestressed Self-Centering,PPSC)钢筋混凝土框架结构由于主体构件地震损伤轻、震后可较快恢复使用功能的
在巨大的燃油消耗和严峻的环境问题的双重压力下,开发更有效的汽车气动减阻技术显得尤为迫切。被广泛研究的简化Ahmed汽车模型为研究具有高度三维性和复杂性的真实汽车绕流提供了很好的参考。根据车模尾窗倾角()的范围12.5°-30°和大于30°,Ahmed车模尾流可以被分别分为高阻和低阻流态。一方面,先前对于低阻流态的理解十分有限,尤其是对非定常结构及其频率。另一方面,本团队前期研究发现,将位于高阻车模
铌酸锂(Lithium niobate,LiNbO33)是一种集压电、铁电、电光、非线性光学、光折变、声光性能等效应于一体的多功能材料。由于其出色的电光系数和非线性光学系数,LiNbO33被认为是未来光子芯片设计和制备的主要材料。然而,LiNbO33稳定的晶体结构、高熔点、热膨胀系数大、脆性高等物理性质,严重地限制了与其他材料,例如:硅(Silicon,Si)、二氧化硅(Siliocn dioxi
尾缘噪声是翼型自噪声的主要来源,中低雷诺数层流下刚性翼型尾缘易产生高幅值单音噪声,破坏空中、水下航行器的安静性。翼型可变形设计为降低航行器噪声和提高航行器经济性提供了新的途径,具有广阔的应用前景。弹性尾缘是可变形翼型的一种基本形式,结构相对简单。然而,目前对翼型弹性尾缘噪声的产生机制和声学特性的研究十分有限,对不同弹性尾缘形式、结构参数下辐射噪声的变化规律研究亦较少。针对以上问题,本文以NACA0
近年来随着超精密加工制造及精密计量等领域的快速发展,位移测量精度需求逐渐由纳米量级向亚纳米甚至皮米量级过渡。非共光路外差干涉光路由于解决了传统共光路外差干涉光路中几纳米至十几纳米的周期非线性误差,已然成为下一代干涉仪的发展方向。然而,非共光路干涉结构的光路更复杂且光程更长,这导致其比传统共光路干涉结构更容易受到温度的影响,此时镜组热漂移误差则凸显出来,成为制约非共光路外差干涉仪进一步提高测量精度的
城市化进程的快速发展带来了人口数量增加与土地资源短缺矛盾,也促使建筑寻求向高空发展,超高层建筑高度不断刷新,可预期的千米级摩天大楼在策划和憧憬。目前,千米级摩天大楼的许多研究领域仍处于探索阶段,有必要开展深入研究,为千米级摩天大楼的建造提供技术支撑。本论文重点关注千米级摩天大楼暖通空调系统设计建造中的室外设计参数选取、能源系统设计策略、系统分区模块式设计方法、烟囱效应的应对策略等方面问题,以期为千
湍流边界层广泛存在于日常生活和工业生产中,如商用客机、高铁和管道运输等。在这些应用中,湍流边界层中的壁面摩擦阻力是造成能量消耗的主要原因之一。例如,商用客机在正常巡航时,湍流边界层中的壁面摩擦阻力占其总阻力的一半以上。降低湍流边界层中的壁面摩擦阻力不仅能够带来巨大的经济效益,还能有效地减少化石燃料燃烧导致的温室气体排放,从而有利于保护环境。因此,研究湍流边界层减阻技术在工程中具有重要意义。在湍流边