基于副语言信息和语言信息的情感识别研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:dysongbo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人机交互的不断发展与应用,情感识别受到了研究者的持续关注。准确地识别说话人的情感信息,有助于机器更好地理解用户的意图,进而提供良好的交互性以提升用户的体验。语音作为人类沟通交流最直接、有效的方式之一,承载着丰富的情感信息。人类在语音中通常是通过音调和重音等副语言信息和语言信息来共同表达情感。其中,副语言信息可以直接从语音信号中获取,具体通过声学特征来体现,而语言信息通过语音转写后的文本内容体现。传统语音情感识别的研究主要依赖副语言信息,早期大多使用人工定义、手动提取的启发式特征(基频F0、能量等),但存在特征种类受限等问题。近年来,利用深度学习基于时频特征自动学习综合表征的方法被广泛应用。然而关于融合基于感性知识的启发式特征去进一步提高统计学习特征的情感表征尚未充分研究;声学特征的完备描述是振幅信息和相位信息共同承担的,传统的情感识别只关注振幅信息忽视相位信息势必缺失部分信息,如何准确抽取相位特征并将其应用于情感识别有待进一步厘清;语言信息传递的情感信息对情感识别至关重要,如何有效地将语言信息和副语言信息融入语音情感识别也是一个具有挑战性的难题。本文针对上述三个问题,从副语言信息层面的表征学习到融合语言信息和副语言信息的互补性建模,逐步深入地研究如何有效融合不同层次的情感表征,从而提升情感识别的性能。本文主要贡献如下:(1)在副语言信息层面,研究传统基于人类感性知识的启发式特征对基于时频特征自动学习情感表征的作用,提出一种融合启发式特征和振幅时频特征的语音情感识别方法。该方法将人类语音情感识别的感性知识融入到情感综合表征中,利用基于感性知识的启发式特征去引导综合表征的学习过程,既保证提取特征的丰富性,又突出F0等关键声学特征的作用,从而提高情感语音的区分度。在EmoDB和IEMOCAP上的相关实验,验证了所提取的知识互补的综合情感表征具有更高的情感判别能力。(2)从信号时频特征的完整性出发,探究情感语音中相位特征的准确抽取和有效使用。首先,分析语音情感在相位谱上的体现,进而通过定量分析表明相位中包含可以用于区分情感的信息。然后,提出一种动态相对相位特征抽取方法,解决原始相对相位难以确定基础频率的问题,进一步缓解相位对于帧裁剪位置的依赖。最后,构建单通道和多通道模型,将相位和振幅信息进行有效融合。通过引入相位信息,捕捉到较为完整的声学特征,从而丰富副语言层面情感语音的表征。实验结果证明了提出的相位特征抽取方法的有效性,以及相位和振幅信息之间在识别语音情感的时候存在互补性。(3)研究情感语音中语言信息和副语言信息的互补性建模。人类说话时中性文本可以通过副语言信息来赋予情感,此时利用声学特征识别情感的优势要大于文本,相反则是文本更有优势。基于此,本文提出基于声学特征和文本信息隐式对齐的多模态Transformer融合模型。该模型使两个模态在学习情感表征的时候能够互为向导、相互补充,并且采用加权融合的方式来控制副语言信息和语言信息的贡献度,从而学习到更加互补的情感表征。实验结果表明,所提的模型在利用语言信息难以表示情感的时候,可以通过副语言信息进行补充;同时副语言信息难以表示的情感类别可以利用语言信息实现。综上,本文首先提出融合启发式特征和振幅时频特征的语音情感识别方法以捕获知识互补的情感综合表征。然后,探究相位特征的准确抽取方法以获取完整的声学特征,进一步有效地体现副语言信息的情感表征。在此基础上,对情感语音中语言信息和副语言信息进行互补性建模,学习到两种模态信息相互补充的情感表征,提升情感识别的能力。这三个方法从不同的侧面探索语音情感,逐步深入地展开对情感相关表征的挖掘,为情感识别相关研究提供了重要的特征参考,具有较高的理论研究和实际应用的价值。
其他文献
适应信息技术在教育中的创新应用趋势及人工智能等新兴信息技术引发的经济社会变革,职业教育信息化成为国内外职业教育系统转型与创新发展的战略选择。生态观研究认为提升职业教育信息化的有效性,即发挥信息技术提升职业教育人才培养质量的潜力和作用,应以生态观审视和探索职业教育信息化的发展,应在推进职业教育信息化的实践过程中构建起职业教育信息化的生态体系。然而,在已有对我国职业教育信息化的发展现状调研中发现,当前
学位
学位
近年来,世界经济增速放缓,中国经济发展已由高速发展转向高质量发展阶段。作为国家实现优化经济结构、转变发展方式和企业迅速做大做强的重要途径,并购已成为资本市场的主旋律,其数量和规模呈现逐年递增的趋势。其中,并购支付方式会改变主并方的资本结构和治理结构,从而影响并购的成败及并购后的绩效。因此,并购选择何种支付方式是主并方至关重要的决策。并购事件的发生不是孤立的,微观企业作为宏观经济的基本单元,它必然处
学位
空气源热泵是一种节能、环保的供暖技术。目前,空气源热泵或采用热风型室内机或配合热水型散热设备进行室内供暖,但是,热风型室内机内置风机带来的吹风感以及噪音,影响了室内舒适性;空气源热泵配合热水型散热设备供暖存在二次换热,导致系统冷凝温度提高、系统能耗增加,此外,水泵、水箱等设备增加了系统复杂性,提高了系统运行维护成本。为此,本文提出一种舒适性更高的蓄热型辐射板式冷凝器,通过理论模型和实验研究相结合的
学位
Passive building design can reduce energy demand by adapting the building to climate characteristics and site conditions,and has become a broad consensus in building energy-saving design.With the impr
学位
基于核酸的PCR诊断,相比基于酶或抗体的分析方法,具有更高的修改灵活性、检测灵敏度以及可以更快、更早地获得检测结果等优势,是流行病控制、农业病害防治、食品安全及法医鉴定等领域的重要研究工具。然而,PCR诊断现局限于实验室内使用,繁琐、耗时的核酸提取过程是制约PCR诊断整体通量和效率的关键瓶颈,并对PCR诊断的准确性有着决定性的影响。相比液相核酸分离,固相核酸分离具有污染试剂少、操作更简单、通量更高
学位
以2012—2022年CNKI数据库中有关社会情感学习领域的文献为研究对象,利用CiteSpace软件对其进行可视化知识图谱分析。结果表明,社会情感学习研究领域的文献数量近年呈爆发式增长,但研究者数量依然较少,研究力量薄弱,学者、机构间普遍缺少深入合作。研究内容上,重点关注小学生,对某一关键词的研究相对分散且时间跨度短。未来,应从基础理论、组织与实施、测量与评估等方面来拓宽社会情感学习领域的研究,
期刊
<正>近年来,随着中国日益走近世界舞台中央,“走出去”的中资企业和人员的数量、规模和频率不断扩大提速。而中美战略博弈、乌克兰危机以及百年大变局加速演变等,使国际安全形势更加复杂多变,中资企业海外建设正面临新的安全风险与挑战。
期刊
自然通风可以营造舒适的室内环境并大量减少空调时间,在创造健康室内环境降低建筑能耗方面具有显著优势。通过国内外自然通风研究综述发现,真实环境自然通风测量数据不足,多个既有通风量计算模型被证实误差较大,且建筑群室内外流场大涡模拟方法尚不成熟,这些都制约着住宅自然通风研究。本研究目的在于1)获得真实住宅环境自然通风的时空数据;2)提高通风量计算模型精度;3)研究真实环境建筑群室内外流场大涡模拟方法,为住
学位
《普通高中地理课程标准(2017年版)》提出以培养中学生地理核心素养为目标的基本理念和课程结构体系,并在实施建议中倡导教师尝试地理问题式教学。教师学会运用情境与问题驱动教学,让学生在课堂上分析问题,解决问题,利于培养学生问题意识和探究性思维从而提升学生的地理核心素养。本文是在阅读、收集和参考大量文献以及学者的研究,从问题式教学、情境式教学的基础上进行研究。基于国内外关于情境+问题双驱动教学的研究文
学位