论文部分内容阅读
                            
                            
                                在人与人的交流中,识别对方的情感状态是情感智能的一个重要内容。情感智能是人类智能的一个方面,对人的社会交往起着非常重要的作用。在传统的语音信号处理过程中,计算机没有被赋予理解操作者的情绪和心情的能力,只能够理解语音信号的表层符号信息,而不能理解隐层情感信息,不能实现类似人类交流之间的情感互动。语音情感信号处理就是要赋予计算机类似人一样的观察、理解语音信号中的情感信息,表达各种情感的能力。本文从认知、心理、生理、特征获取、模式识别等角度对情感语音识别进行了研究,取得了一些研究成果。
    本文首先从心理生理学的角度回顾了情绪理论的研究发展历程,给出了按照生理心理学的研究成果的不同的情绪分类方法,作为情绪模式识别的分类依据。
    针对情感语音研究中所面临的一些问题,对目前使用的一些情感语音数据库进行了分析,指出了不同类型的数据库各自的优点和缺点。在列举目前所存在的所有数据库的同时,从语音情感识别的角度对数据库的建立提山了一些观点,并将其作为我们创建中文情感语音数据库的基础。基于本文的分析观点进行中文情感语音数据库的建设,我们得到了包括2268个单词样本,2916个短句样本,280个长时语句样本的中规模中文情感语音数据库。
    利用模糊熵的理论,本文提出了一种特征参数有效性度量手段。先得到特征参数相对于情感的模糊关系矩阵,然后将模糊综合判决同利用模糊熵的参数有效性度量相结合,对情感语句进行识别。实验结果表明,结合参数有效性度量的模糊综合判决方法能较大提高语音信号的情感识别率,并高于常用的主元分析方法。
    汉语音节的韵律特征对情感表达起着非常重要的作用。本文提取情感语句中各元音区间的声学参数组成时序结构特征。由于元音数目的不同,对不同长短的语句的时序结构特征进行了规整。采用最长的句子为基准,将较短的句子的时序结构与基准对齐而进行规整,并提出了3种不同的规整方法。传统的QDF方法中,计算协方差矩阵所必要的乘法次数随着参数的维数增加,会导致计算量和内存所占容量变得很大。同时,协方差矩阵的推定误差将增大,从而降低判别的性能。因此,本文提出了一种新的修正二次判别函数(MQDF)。研究结果表明,利用了时序结构特征与采用修正二次函数相结合的方法,可以较高的提高语音情感识别效率。
    利用支持向量机,本文对语音情感识别的二分模式识别和多模式识别进行了研究。在二分模式的情感语音识别实验中,比较了线性映射和高斯核函数的映射方法。结果表明非线性的映射能够改善情感的分类效果。在多模式情感实验中,选用“One-Against-All”的SVM网络进行.4类语音情感的识别。选择具有连续输出的函数作为软判决,然后选择具有最大输出值的类别作为最终的输出。将多模式的SVM判决方法同PCA方法进行比较,结果表明使用SVM对语音情感进行识别效率大大高于其他识别方法。
    本文研究了利用基音的统计模型信息来进行语音情感的识别方法。提出一种变窗口的ParZen窗法估计方法对基音的统计模型进行估计,防止了分布模型在高频部分的抖动和低频部分的延伸。通过采用巴氏距离(Bhattacharyya Distance)来衡量不同的分布模型之间的距离,并将这个距离作为模式识别的参数之一。利用KNN方法对情感语料进行了识别实验,结果表明基音的统计模型参数的引入能够较明显的提高情感语基音和共振峰的衍生形式经常被用来作为特征参数进行语音信号的情感识别。这些参数和人的生理构造有着密切的关系,不同的性别上之间具有差异。为消除这些性别差异,本文提出了基于性别分离的特征参数规整方法。利用基于模糊熵的有效性度量方法对情感特征参数的有效性进行度量,表明消除性别差异使得特征参数具有更高的有效性。在识别过程中,首先利用男女性别的基音分布规律的差异进行性别分离,然后再对测试样本利用KNN方法进行情感识别。实验结果表明,基于传统的基音和共振峰参数的情感识别正确率为72.4﹪,而利用本文提出的修正方法得到的参数进行识别,情感识别正确率可以达到78.6﹪。