论文部分内容阅读
即将到来的万物互联时代为人机交互领域提供了巨大的发展机遇,言语交互是人机交互中最自然,最便捷的交互方式。言语情感识别是言语交互中非常重要的一环,只有准确地识别说话人的言语情感信息,才能理解说话人的言外之意,实现有效言语交互。互联网环境中,言语情感信息可以在文本(如微博等)和语音两个言语通道上进行传递。文本情感通常是指说话人有意识的情感表达。从情感言语生成角度看,说话人的心理和生理状态都会反映在言语内容和行为信息等特征上,从这些特征信息中可以挖掘用户的情感状态。比如,微博用户的心理和生理状态会导致其言语内容和交互行为特征上的不同,通过这些特征信息可以挖掘用户是否有抑郁倾向情绪。语音情感更多的是一种无意识的、不由自主的情感表达。从情感言语感知的角度来看,声音进入听话人的听觉生理系统进行一系列的转换到达听觉皮层,通过语音音调、强度和持续时间等特征识别用户情感状态。
本文根据文本产生和语音感知的特点,从不同的角度将生理学和行为学特征融入到言语情感识别研究中。在文本情感识别中,我们主要通过微博的文本内容和交互行为学特征挖掘微博用户的生理和心理状态,在语音情感识别中则主要利用听话人的听觉机理抽取语音中和情感相关的有效特征表示来提高情感的识别率。基于这个研究思路,本文在文本情感挖掘和语音情感识别中,在以下四个方面进行了创新性研究:
(1)本文提出了一种结合用户行为特征的口语化文本情感识别方法,具体是指在文本言语通道上的抑郁倾向人群识别。首先根据口语化文本的新特点构建了抑郁情感词典并基于该词典提取文本特征表示,然后结合用户言语交互行为特征采用多核学习方法找到异构特征与情感的最优映射来实现抑郁倾向人群识别。实验结果表明,结合文本特征表示和交互行为特征是一种有效的情感挖掘方法。
(2)本文首先提出了基于耳蜗滤波的情感识别方法,虽然该方法取得了比基于MFCC的方法更好的结果,但它存在明显的缺点,因此本文进一步提出了基于听觉调制的情感识别方法。基于听觉调制的方法引入了调制滤波来产生多维时间调制线索,然后采用3DCNN(convolutional neural network)模型直接对调制线索进行联合谱时特征学习。实验结果表明,3DCNN可以从时间调制线索中有效提取情感区分性的听觉表征。
(3)受人耳听觉注意机制的启发,本文提出了一种基于注意力模型的滑动循环网络(Attention-based sliding recurrent neural network,ASRNN)模型来识别语音情感。其中,通过滑动窗来实现持续关注并提取连续的段级内部表征,然后通过时域注意力模型来实现选择性注意机制。最后通过注意力听辨实验对注意力模型和人耳听觉注意机制的相关性进行了比较分析。实验结果表明,该模型能从听觉表征中有效地捕获显著的情绪区域。
(4)受人耳听觉系统多尺度调制的启发,本文提出了基于多分辨率调制耳蜗图(multi-resolution modulation-filtered cochleagram,MMCG)特征的维度情感识别方法。其中MMCG把时间调制线索编码成不同分辨率的调制耳蜗图来捕获时间和上下文调制线索。考虑到MMCG中的每种调制耳蜗图包含不同尺度的调制线索,本文设计了一种并行LSTM网络结构从不同分辨率特征中建立多个时间依赖关系并跟踪情感在时间序列上的动态性。实验结果表明,MMCG特征能够获得多尺度情感信息,而并行LSTM能够有效地跟踪情感的时间动态。
本文根据文本产生和语音感知的特点,从不同的角度将生理学和行为学特征融入到言语情感识别研究中。在文本情感识别中,我们主要通过微博的文本内容和交互行为学特征挖掘微博用户的生理和心理状态,在语音情感识别中则主要利用听话人的听觉机理抽取语音中和情感相关的有效特征表示来提高情感的识别率。基于这个研究思路,本文在文本情感挖掘和语音情感识别中,在以下四个方面进行了创新性研究:
(1)本文提出了一种结合用户行为特征的口语化文本情感识别方法,具体是指在文本言语通道上的抑郁倾向人群识别。首先根据口语化文本的新特点构建了抑郁情感词典并基于该词典提取文本特征表示,然后结合用户言语交互行为特征采用多核学习方法找到异构特征与情感的最优映射来实现抑郁倾向人群识别。实验结果表明,结合文本特征表示和交互行为特征是一种有效的情感挖掘方法。
(2)本文首先提出了基于耳蜗滤波的情感识别方法,虽然该方法取得了比基于MFCC的方法更好的结果,但它存在明显的缺点,因此本文进一步提出了基于听觉调制的情感识别方法。基于听觉调制的方法引入了调制滤波来产生多维时间调制线索,然后采用3DCNN(convolutional neural network)模型直接对调制线索进行联合谱时特征学习。实验结果表明,3DCNN可以从时间调制线索中有效提取情感区分性的听觉表征。
(3)受人耳听觉注意机制的启发,本文提出了一种基于注意力模型的滑动循环网络(Attention-based sliding recurrent neural network,ASRNN)模型来识别语音情感。其中,通过滑动窗来实现持续关注并提取连续的段级内部表征,然后通过时域注意力模型来实现选择性注意机制。最后通过注意力听辨实验对注意力模型和人耳听觉注意机制的相关性进行了比较分析。实验结果表明,该模型能从听觉表征中有效地捕获显著的情绪区域。
(4)受人耳听觉系统多尺度调制的启发,本文提出了基于多分辨率调制耳蜗图(multi-resolution modulation-filtered cochleagram,MMCG)特征的维度情感识别方法。其中MMCG把时间调制线索编码成不同分辨率的调制耳蜗图来捕获时间和上下文调制线索。考虑到MMCG中的每种调制耳蜗图包含不同尺度的调制线索,本文设计了一种并行LSTM网络结构从不同分辨率特征中建立多个时间依赖关系并跟踪情感在时间序列上的动态性。实验结果表明,MMCG特征能够获得多尺度情感信息,而并行LSTM能够有效地跟踪情感的时间动态。